論文の概要: Convincing Rationales for Visual Question Answering Reasoning
- arxiv url: http://arxiv.org/abs/2402.03896v1
- Date: Tue, 6 Feb 2024 11:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:18:35.167848
- Title: Convincing Rationales for Visual Question Answering Reasoning
- Title(参考訳): 視覚的質問応答推論の合理化
- Authors: Kun Li, George Vosselman, Michael Ying Yang
- Abstract要約: VQA(Visual Question Answering)は、画像の内容に関する質問に対する回答を予測するための課題である。
VQA, CRVQAに対して, 与えられた画像/問合せ対の予測解に隣接する視覚的, テキスト的合理性を生成する。
CRVQAは、ゼロショット評価設定において、一般的なVQAデータセット上での競合性能を達成する。
- 参考スコア(独自算出の注目度): 14.490692389105947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is a challenging task of predicting the
answer to a question about the content of an image. It requires deep
understanding of both the textual question and visual image. Prior works
directly evaluate the answering models by simply calculating the accuracy of
the predicted answers. However, the inner reasoning behind the prediction is
disregarded in such a "black box" system, and we do not even know if one can
trust the predictions. In some cases, the models still get the correct answers
even when they focus on irrelevant visual regions or textual tokens, which
makes the models unreliable and illogical. To generate both visual and textual
rationales next to the predicted answer to the given image/question pair, we
propose Convincing Rationales for VQA, CRVQA. Considering the extra annotations
brought by the new outputs, {CRVQA} is trained and evaluated by samples
converted from some existing VQA datasets and their visual labels. The
extensive experiments demonstrate that the visual and textual rationales
support the prediction of the answers, and further improve the accuracy.
Furthermore, {CRVQA} achieves competitive performance on generic VQA datatsets
in the zero-shot evaluation setting. The dataset and source code will be
released under https://github.com/lik1996/CRVQA2024.
- Abstract(参考訳): 視覚的質問応答(vqa)は、画像の内容に関する質問に対する回答を予測するという困難なタスクである。
テキスト質問と視覚イメージの両方を深く理解する必要がある。
先行研究は、予測された回答の精度を単純に計算することで、解答モデルを直接評価する。
しかし、このような「ブラックボックス」システムでは、予測の背後にある内的推論は無視され、予測を信用できるかどうかさえわからない。
場合によっては、不適切な視覚領域やテキストトークンに注目した場合でも、モデルが正しい答えを得られる場合があるため、モデルの信頼性が低く、非論理的になる。
VQA, CRVQAに対して, 与えられた画像/問合せ対の予測解に隣接する視覚的およびテキスト的合理性を生成する。
新しい出力がもたらす追加アノテーションを考えると、 {CRVQA} は既存のVQAデータセットとそれらのビジュアルラベルから変換されたサンプルによって訓練され、評価される。
広範な実験により、視覚的およびテキスト的合理性が回答の予測をサポートし、さらに精度を向上させることが示されている。
さらに, ゼロショット評価設定において, {CRVQA} は汎用VQAデータセット上での競合性能を達成する。
データセットとソースコードはhttps://github.com/lik1996/CRVQA2024でリリースされる。
関連論文リスト
- Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - Generating Rationales in Visual Question Answering [28.45552957339557]
視覚質問応答(VQA)のための新しいタスク分岐生成法を提案する。
VCR(Visual Commonsense Rea-soning)タスクのデータを、視覚的な質問や回答とともに、基礎的真実を含むものとして使用しています。
我々は、VQAにおける解答の予測と合理性の生成という2つのタスクで、GPT-2でVLBERTをエンドツーエンドで訓練する。
論文 参考訳(メタデータ) (2020-04-04T22:15:35Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。