論文の概要: Exploring Question Decomposition for Zero-Shot VQA
- arxiv url: http://arxiv.org/abs/2310.17050v1
- Date: Wed, 25 Oct 2023 23:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:55:06.233989
- Title: Exploring Question Decomposition for Zero-Shot VQA
- Title(参考訳): ゼロショットVQAのための質問分解の探索
- Authors: Zaid Khan, Vijay Kumar BG, Samuel Schulter, Manmohan Chandraker, Yun
Fu
- Abstract要約: 視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
- 参考スコア(独自算出の注目度): 99.32466439254821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) has traditionally been treated as a
single-step task where each question receives the same amount of effort, unlike
natural human question-answering strategies. We explore a question
decomposition strategy for VQA to overcome this limitation. We probe the
ability of recently developed large vision-language models to use human-written
decompositions and produce their own decompositions of visual questions,
finding they are capable of learning both tasks from demonstrations alone.
However, we show that naive application of model-written decompositions can
hurt performance. We introduce a model-driven selective decomposition approach
for second-guessing predictions and correcting errors, and validate its
effectiveness on eight VQA tasks across three domains, showing consistent
improvements in accuracy, including improvements of >20% on medical VQA
datasets and boosting the zero-shot performance of BLIP-2 above chance on a VQA
reformulation of the challenging Winoground task. Project Site:
https://zaidkhan.me/decomposition-0shot-vqa/
- Abstract(参考訳): 視覚的質問応答(VQA)は伝統的に、自然の人間の質問答え戦略とは異なり、各質問が同じ量の労力を受け取る単一ステップのタスクとして扱われてきた。
この制限を克服するために、VQAの質問分解戦略を検討する。
本研究では,最近開発された大規模視覚言語モデルを用いて,人文による分解を活用し,視覚的質問の分解を独自に生成し,実演だけで両タスクを学習できることを検証した。
しかし,モデル記述分解のナイーブな適用は性能を損なう可能性がある。
本稿では,第2言語予測と誤り訂正のためのモデル駆動選択的分解手法を導入し,医療用VQAデータセットの20%以上の改善や,難易度の高いWinogroundタスクのVQA修正におけるBLIP-2のゼロショット性能の向上など,3領域にわたる8つのVQAタスクの有効性を検証した。
プロジェクトサイト: https://zaidkhan.me/decomposition-0shot-vqa/
関連論文リスト
- Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage
Assessment with Visual Contexts [6.820160182829294]
VQA-TSP (Two-Stage Prompt) を用いたゼロショットVQA(Flood Disaster VQA)を提案する。
モデルは第1段階で思考プロセスを生成し、その後思考プロセスを使用して第2段階で最終回答を生成する。
本手法は, 洪水災害シナリオに対する最先端ゼロショットVQAモデルの性能を上回った。
論文 参考訳(メタデータ) (2023-12-21T13:45:02Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。