論文の概要: SOrT-ing VQA Models : Contrastive Gradient Learning for Improved
Consistency
- arxiv url: http://arxiv.org/abs/2010.10038v2
- Date: Tue, 1 Dec 2020 02:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:37:08.467096
- Title: SOrT-ing VQA Models : Contrastive Gradient Learning for Improved
Consistency
- Title(参考訳): ソートイングvqaモデル : 一貫性向上のためのコントラスト勾配学習
- Authors: Sameer Dharur, Purva Tendulkar, Dhruv Batra, Devi Parikh, Ramprasaath
R. Selvaraju
- Abstract要約: 本稿では、画像上の推論問題と最も強く相関する質問を決定するために、勾配に基づく解釈可能性アプローチを提案する。
次に,サブクエスト指向チューニング (SOrT) と呼ばれる,相対的勾配学習に基づくアプローチを提案する。
我々は、SOrTが既存のベースラインよりも最大6.5%のモデルの一貫性を向上し、また、視覚的グラウンド化を改善していることを示す。
- 参考スコア(独自算出の注目度): 64.67155167618894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in Visual Question Answering (VQA) has revealed
state-of-the-art models to be inconsistent in their understanding of the world
-- they answer seemingly difficult questions requiring reasoning correctly but
get simpler associated sub-questions wrong. These sub-questions pertain to
lower level visual concepts in the image that models ideally should understand
to be able to answer the higher level question correctly. To address this, we
first present a gradient-based interpretability approach to determine the
questions most strongly correlated with the reasoning question on an image, and
use this to evaluate VQA models on their ability to identify the relevant
sub-questions needed to answer a reasoning question. Next, we propose a
contrastive gradient learning based approach called Sub-question Oriented
Tuning (SOrT) which encourages models to rank relevant sub-questions higher
than irrelevant questions for an <image, reasoning-question> pair. We show that
SOrT improves model consistency by upto 6.5% points over existing baselines,
while also improving visual grounding.
- Abstract(参考訳): VQA(Visual Question Answering)の最近の研究は、最先端のモデルが世界の理解に矛盾していることを明らかにしている。
これらのサブクエストは、モデルが理想的には高次問題に正しく答えられるように理解すべき画像の低次視覚概念に関係している。
そこで我々はまず,画像上の推論問題と最も強く相関する質問を解き明かすために,勾配に基づく解答可能性アプローチを提案し,これを用いてVQAモデルの評価を行い,推論問題に答えるために必要なサブクェリを識別する能力について検討する。
次に,<image, reasoning-question>ペアに対する無関係な質問よりも,関係するサブクエストのランク付けを奨励する,サブクエスト指向チューニング(SOrT)という,対照的な勾配学習に基づくアプローチを提案する。
既存のベースラインよりも最大6.5%のポイントでモデルの一貫性が向上すると同時に、視覚的な接地性も向上している。
関連論文リスト
- Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。