論文の概要: Unleashing the Potential of Large Language Model: Zero-shot VQA for
Flood Disaster Scenario
- arxiv url: http://arxiv.org/abs/2312.01882v1
- Date: Mon, 4 Dec 2023 13:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:01:10.627099
- Title: Unleashing the Potential of Large Language Model: Zero-shot VQA for
Flood Disaster Scenario
- Title(参考訳): 大規模言語モデルの可能性:洪水災害シナリオのためのゼロショットVQA
- Authors: Yimin Sun, Chao Wang, Yan Peng
- Abstract要約: 洪水被害評価のためのゼロショットVQAモデル(ZFDDA)を提案する。
洪水災害を主な研究対象とし,フリースタイルの洪水画像質問回答データセット(FFD-IQA)を構築した。
この新しいデータセットは、質問タイプを拡張して、自由形式、複数選択、イエスノー質問を含む。
我々のモデルは、大きな言語モデルの可能性を解き明かすために、よく設計された思考の連鎖(CoT)デモを使用する。
- 参考スコア(独自算出の注目度): 6.820160182829294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) is a fundamental and essential AI task, and
VQA-based disaster scenario understanding is a hot research topic. For
instance, we can ask questions about a disaster image by the VQA model and the
answer can help identify whether anyone or anything is affected by the
disaster. However, previous VQA models for disaster damage assessment have some
shortcomings, such as limited candidate answer space, monotonous question
types, and limited answering capability of existing models. In this paper, we
propose a zero-shot VQA model named Zero-shot VQA for Flood Disaster Damage
Assessment (ZFDDA). It is a VQA model for damage assessment without
pre-training. Also, with flood disaster as the main research object, we build a
Freestyle Flood Disaster Image Question Answering dataset (FFD-IQA) to evaluate
our VQA model. This new dataset expands the question types to include
free-form, multiple-choice, and yes-no questions. At the same time, we expand
the size of the previous dataset to contain a total of 2,058 images and 22,422
question-meta ground truth pairs. Most importantly, our model uses
well-designed chain of thought (CoT) demonstrations to unlock the potential of
the large language model, allowing zero-shot VQA to show better performance in
disaster scenarios. The experimental results show that the accuracy in
answering complex questions is greatly improved with CoT prompts. Our study
provides a research basis for subsequent research of VQA for other disaster
scenarios.
- Abstract(参考訳): 視覚的質問応答(VQA)は基本的で不可欠なAIタスクであり、VQAベースの災害シナリオ理解はホットな研究トピックである。
例えば、VQAモデルによる災害画像に関する質問は可能であり、その答えは、災害の影響を受けている人物や人物の特定に役立つ。
しかし, 災害被害評価のための従来のVQAモデルには, 限定された候補回答空間, 単調な質問型, 既存モデルの限定的な回答能力などの欠点がある。
本稿では,洪水災害評価のためのゼロショットVQAモデルであるゼロショットVQAを提案する。
プレトレーニングなしでの損傷評価のためのVQAモデルである。
また,洪水災害を主な研究対象として,我々のVQAモデルを評価するために,フリースタイル洪水画像回答データセット(FFD-IQA)を構築した。
この新しいデータセットは、質問タイプをfree-form、multiple-choice、yes-noに拡張する。
同時に、前回のデータセットのサイズを拡大し、合計2,058枚のイメージと22,422個の質問・メタの根拠のペアを含む。
最も重要なことは、私たちのモデルは、大きな言語モデルの可能性を解き放つために、よく設計された思考の連鎖(CoT)デモを使用します。
実験の結果,複雑な質問に対する回答精度はCoTプロンプトにより大幅に向上した。
本研究は他の災害シナリオに対するvqa研究のための研究基盤を提供する。
関連論文リスト
- Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage
Assessment with Visual Contexts [6.820160182829294]
VQA-TSP (Two-Stage Prompt) を用いたゼロショットVQA(Flood Disaster VQA)を提案する。
モデルは第1段階で思考プロセスを生成し、その後思考プロセスを使用して第2段階で最終回答を生成する。
本手法は, 洪水災害シナリオに対する最先端ゼロショットVQAモデルの性能を上回った。
論文 参考訳(メタデータ) (2023-12-21T13:45:02Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Continual VQA for Disaster Response Systems [0.0]
Visual Question Answering (VQA)は、入力画像から質問に答えることを含むマルチモーダルタスクである。
主な課題は、影響地域の評価におけるラベルの生成による遅延である。
トレーニング済みのCLIPモデルをデプロイし、ビジュアルイメージペアに基づいてトレーニングする。
我々は、FloodNetデータセットの過去の最先端結果を上回った。
論文 参考訳(メタデータ) (2022-09-21T12:45:51Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment
and Analysis [0.7614628596146599]
無人航空機(UAV)と統合された視覚質問応答システムには、災害後の被害評価を前進させる多くの可能性がある。
ハリケーン・マイケル時に収集したテキストHurMic-VQAデータセットについて紹介する。
論文 参考訳(メタデータ) (2021-06-19T18:28:16Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。