論文の概要: SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions
- arxiv url: http://arxiv.org/abs/2001.06927v2
- Date: Tue, 16 Jun 2020 17:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 04:58:06.374861
- Title: SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions
- Title(参考訳): VQAモデルのSQuINTing:サブクエストによるVQAモデルのイントロスペクション
- Authors: Ramprasaath R. Selvaraju, Purva Tendulkar, Devi Parikh, Eric Horvitz,
Marco Ribeiro, Besmira Nushi, Ece Kamar
- Abstract要約: 現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
- 参考スコア(独自算出の注目度): 66.86887670416193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing VQA datasets contain questions with varying levels of complexity.
While the majority of questions in these datasets require perception for
recognizing existence, properties, and spatial relationships of entities, a
significant portion of questions pose challenges that correspond to reasoning
tasks - tasks that can only be answered through a synthesis of perception and
knowledge about the world, logic and / or reasoning. Analyzing performance
across this distinction allows us to notice when existing VQA models have
consistency issues; they answer the reasoning questions correctly but fail on
associated low-level perception questions. For example, in Figure 1, models
answer the complex reasoning question "Is the banana ripe enough to eat?"
correctly, but fail on the associated perception question "Are the bananas
mostly green or yellow?" indicating that the model likely answered the
reasoning question correctly but for the wrong reason. We quantify the extent
to which this phenomenon occurs by creating a new Reasoning split of the VQA
dataset and collecting VQA-introspect, a new dataset1 which consists of 238K
new perception questions which serve as sub questions corresponding to the set
of perceptual tasks needed to effectively answer the complex reasoning
questions in the Reasoning split. Our evaluation shows that state-of-the-art
VQA models have comparable performance in answering perception and reasoning
questions, but suffer from consistency problems. To address this shortcoming,
we propose an approach called Sub-Question Importance-aware Network Tuning
(SQuINT), which encourages the model to attend to the same parts of the image
when answering the reasoning question and the perception sub question. We show
that SQuINT improves model consistency by ~5%, also marginally improving
performance on the Reasoning questions in VQA, while also displaying better
attention maps.
- Abstract(参考訳): 既存のVQAデータセットには、さまざまなレベルの複雑さに関する質問が含まれている。
これらのデータセットの質問の多くは、エンティティの存在、特性、空間的関係を認識するための知覚を必要とするが、問題の大部分は推論タスク(世界、論理、あるいは推論に関する認識と知識の合成によってのみ答えられるタスク)に対応する課題を提起する。
この区別によって、既存のVQAモデルに一貫性のある問題があることに気付くことができ、推論の疑問に正しく答えるが、関連する低レベルな認識の疑問に失敗する。
例えば、図1では、モデルは複雑な推論の質問に答える:「バナナは食べられるのに十分か?」 しかし、関連する認識の質問に失敗する:「バナナは主に緑か黄色か?
本稿では,VQAデータセットの新しい推論分割を作成し,VQA-イントロスペクション(VQA-introspect)を収集することにより,この現象が生じる範囲を定量化する。
我々の評価によると、最先端のVQAモデルは、知覚と推論の質問に答える上で同等の性能を持つが、一貫性の問題に悩まされている。
そこで本研究では,この欠点に対処するために,推論質問と知覚下位質問に答える際に,モデルが画像の同じ部分に参加するように促す,下位質問重要度認識ネットワークチューニング(sub-question importance-aware network tuning,squint)と呼ばれるアプローチを提案する。
我々は,SQuINTがモデル一貫性を約5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset [26.782937852417454]
複素数式を用いた数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5の正確なマッチスコアしか達成できないことを示す。
また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:17:09Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - SOrT-ing VQA Models : Contrastive Gradient Learning for Improved
Consistency [64.67155167618894]
本稿では、画像上の推論問題と最も強く相関する質問を決定するために、勾配に基づく解釈可能性アプローチを提案する。
次に,サブクエスト指向チューニング (SOrT) と呼ばれる,相対的勾配学習に基づくアプローチを提案する。
我々は、SOrTが既存のベースラインよりも最大6.5%のモデルの一貫性を向上し、また、視覚的グラウンド化を改善していることを示す。
論文 参考訳(メタデータ) (2020-10-20T05:15:48Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing [20.117014315684287]
我々は、知識ギャップ(KG)の分類を用いて、質問を1つまたは複数のタイプのKGでタグ付けする。
次に,各KGに対する質問の分布のスキューについて検討する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
論文 参考訳(メタデータ) (2020-04-08T00:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。