論文の概要: Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage
Assessment with Visual Contexts
- arxiv url: http://arxiv.org/abs/2312.13848v1
- Date: Thu, 21 Dec 2023 13:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:40:03.219234
- Title: Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage
Assessment with Visual Contexts
- Title(参考訳): 幻覚の低減:視覚的文脈による洪水災害評価のためのVQAの強化
- Authors: Yimin Sun, Chao Wang and Yan Peng
- Abstract要約: VQA-TSP (Two-Stage Prompt) を用いたゼロショットVQA(Flood Disaster VQA)を提案する。
モデルは第1段階で思考プロセスを生成し、その後思考プロセスを使用して第2段階で最終回答を生成する。
本手法は, 洪水災害シナリオに対する最先端ゼロショットVQAモデルの性能を上回った。
- 参考スコア(独自算出の注目度): 6.820160182829294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The zero-shot performance of visual question answering (VQA) models relies
heavily on prompts. For example, a zero-shot VQA for disaster scenarios could
leverage well-designed Chain of Thought (CoT) prompts to stimulate the model's
potential. However, using CoT prompts has some problems, such as causing an
incorrect answer in the end due to the hallucination in the thought process. In
this paper, we propose a zero-shot VQA named Flood Disaster VQA with Two-Stage
Prompt (VQA-TSP). The model generates the thought process in the first stage
and then uses the thought process to generate the final answer in the second
stage. In particular, visual context is added in the second stage to relieve
the hallucination problem that exists in the thought process. Experimental
results show that our method exceeds the performance of state-of-the-art
zero-shot VQA models for flood disaster scenarios in total. Our study provides
a research basis for improving the performance of CoT-based zero-shot VQA.
- Abstract(参考訳): 視覚的質問応答(VQA)モデルのゼロショット性能は、プロンプトに大きく依存する。
例えば、災害シナリオのためのゼロショットVQAは、よく設計されたChain of Thought(CoT)プロンプトを利用してモデルのポテンシャルを刺激することができる。
しかし、CoTプロンプトの使用には、思考過程の幻覚によって最後に誤った答えが生じるなど、いくつかの問題がある。
本稿では,2段階プロンプト(VQA-TSP)を用いたゼロショットVQAFlood Disaster VQAを提案する。
モデルは第1段階で思考プロセスを生成し、その後思考プロセスを使用して第2段階で最終回答を生成する。
特に、思考過程に存在する幻覚の問題を緩和するために、第2段階に視覚的コンテキストが追加される。
実験の結果,本手法は洪水災害シナリオにおいて最先端のゼロショットvqaモデルの性能を上回っていることがわかった。
本研究は,CoTを用いたゼロショットVQAの性能向上のための研究基盤を提供する。
関連論文リスト
- Unleashing the Potential of Large Language Model: Zero-shot VQA for
Flood Disaster Scenario [6.820160182829294]
洪水被害評価のためのゼロショットVQAモデル(ZFDDA)を提案する。
洪水災害を主な研究対象とし,フリースタイルの洪水画像質問回答データセット(FFD-IQA)を構築した。
この新しいデータセットは、質問タイプを拡張して、自由形式、複数選択、イエスノー質問を含む。
我々のモデルは、大きな言語モデルの可能性を解き明かすために、よく設計された思考の連鎖(CoT)デモを使用する。
論文 参考訳(メタデータ) (2023-12-04T13:25:16Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Continual VQA for Disaster Response Systems [0.0]
Visual Question Answering (VQA)は、入力画像から質問に答えることを含むマルチモーダルタスクである。
主な課題は、影響地域の評価におけるラベルの生成による遅延である。
トレーニング済みのCLIPモデルをデプロイし、ビジュアルイメージペアに基づいてトレーニングする。
我々は、FloodNetデータセットの過去の最先端結果を上回った。
論文 参考訳(メタデータ) (2022-09-21T12:45:51Z) - VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment
and Analysis [0.7614628596146599]
無人航空機(UAV)と統合された視覚質問応答システムには、災害後の被害評価を前進させる多くの可能性がある。
ハリケーン・マイケル時に収集したテキストHurMic-VQAデータセットについて紹介する。
論文 参考訳(メタデータ) (2021-06-19T18:28:16Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Generating Rationales in Visual Question Answering [28.45552957339557]
視覚質問応答(VQA)のための新しいタスク分岐生成法を提案する。
VCR(Visual Commonsense Rea-soning)タスクのデータを、視覚的な質問や回答とともに、基礎的真実を含むものとして使用しています。
我々は、VQAにおける解答の予測と合理性の生成という2つのタスクで、GPT-2でVLBERTをエンドツーエンドで訓練する。
論文 参考訳(メタデータ) (2020-04-04T22:15:35Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。