論文の概要: Overcoming Language Priors in Visual Question Answering via
Distinguishing Superficially Similar Instances
- arxiv url: http://arxiv.org/abs/2209.08529v1
- Date: Sun, 18 Sep 2022 10:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:31:29.341804
- Title: Overcoming Language Priors in Visual Question Answering via
Distinguishing Superficially Similar Instances
- Title(参考訳): 表面的類似事例の識別による視覚的質問応答における言語優先の克服
- Authors: Yike Wu, Yu Zhao, Shiwan Zhao, Ying Zhang, Xiaojie Yuan, Guoqing Zhao,
Ning Jiang
- Abstract要約: 本稿では,VQAモデルに対して,仮想的に類似したインスタンスの区別を明示的に促す新しいトレーニングフレームワークを提案する。
我々は、解空間におけるインスタンスとそれに対応するモジュール間の距離を増やすために、提案された区別モジュールを利用する。
実験の結果,VQA-CP v2の最先端性能が得られた。
- 参考スコア(独自算出の注目度): 17.637150597493463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great progress of Visual Question Answering (VQA), current VQA
models heavily rely on the superficial correlation between the question type
and its corresponding frequent answers (i.e., language priors) to make
predictions, without really understanding the input. In this work, we define
the training instances with the same question type but different answers as
\textit{superficially similar instances}, and attribute the language priors to
the confusion of VQA model on such instances. To solve this problem, we propose
a novel training framework that explicitly encourages the VQA model to
distinguish between the superficially similar instances. Specifically, for each
training instance, we first construct a set that contains its superficially
similar counterparts. Then we exploit the proposed distinguishing module to
increase the distance between the instance and its counterparts in the answer
space. In this way, the VQA model is forced to further focus on the other parts
of the input beyond the question type, which helps to overcome the language
priors. Experimental results show that our method achieves the state-of-the-art
performance on VQA-CP v2. Codes are available at
\href{https://github.com/wyk-nku/Distinguishing-VQA.git}{Distinguishing-VQA}.
- Abstract(参考訳): VQA(Visual Question Answering)の大きな進歩にもかかわらず、現在のVQAモデルは、入力を本当に理解することなく予測を行うために、質問タイプとその対応する頻繁な回答(言語優先)の間の表面的相関に大きく依存している。
本研究では、同じ質問型で異なる回答を持つトレーニングインスタンスを \textit{superficially similar instances} として定義し、そのようなインスタンスでvqaモデルの混乱に先立って言語を属性付けする。
この問題を解決するために,VQAモデルに表面的類似のインスタンスを区別するよう明示的に促す新しいトレーニングフレームワークを提案する。
具体的には、各トレーニングインスタンスに対して、まずその表面的に類似した集合を含む集合を構築します。
次に、提案した区別モジュールを利用して、解空間内のインスタンスとそれとの距離を拡大する。
このようにして、vqaモデルは、質問型を超えて入力の他の部分に集中せざるを得なくなり、言語を優先的に克服するのに役立ちます。
実験の結果,VQA-CP v2の最先端性能が得られた。
コードは \href{https://github.com/wyk-nku/Distinguishing-VQA.git}{Distinguishing-VQA} で公開されている。
関連論文リスト
- Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder [12.56413718364189]
VQAのための新しいモデルに依存しない質問エンコーダVGQE(Visually-Grounded Question)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方のモダリティを等しく利用する。
VGQEが最近の3つのVQAモデルに与える影響を実証し、最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T05:36:36Z) - Estimating semantic structure for the VQA answer space [6.49970685896541]
3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。
VQAv2-CPデータセットのSOTAレベル性能について報告する。
論文 参考訳(メタデータ) (2020-06-10T08:32:56Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。