論文の概要: AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss
- arxiv url: http://arxiv.org/abs/2105.01993v1
- Date: Wed, 5 May 2021 11:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:47:35.033131
- Title: AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss
- Title(参考訳): AdaVQA: 適応型Margin Cosine損失による言語優先の克服
- Authors: Yangyang Guo and Liqiang Nie and Zhiyong Cheng and Feng Ji and Ji
Zhang and Alberto Del Bimbo
- Abstract要約: 本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
- 参考スコア(独自算出の注目度): 73.65872901950135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of studies point out that current Visual Question Answering (VQA)
models are severely affected by the language prior problem, which refers to
blindly making predictions based on the language shortcut. Some efforts have
been devoted to overcoming this issue with delicate models. However, there is
no research to address it from the angle of the answer feature space learning,
despite of the fact that existing VQA methods all cast VQA as a classification
task. Inspired by this, in this work, we attempt to tackle the language prior
problem from the viewpoint of the feature space learning. To this end, an
adapted margin cosine loss is designed to discriminate the frequent and the
sparse answer feature space under each question type properly. As a result, the
limited patterns within the language modality are largely reduced, thereby less
language priors would be introduced by our method. We apply this loss function
to several baseline models and evaluate its effectiveness on two VQA-CP
benchmarks. Experimental results demonstrate that our adapted margin cosine
loss can greatly enhance the baseline models with an absolute performance gain
of 15\% on average, strongly verifying the potential of tackling the language
prior problem in VQA from the angle of the answer feature space learning.
- Abstract(参考訳): 多くの研究は、現在の視覚質問応答(vqa)モデルは、言語ショートカットに基づいた予測を盲目的に行うことを指す言語先行問題によって深刻な影響を受けることを指摘している。
この問題を繊細なモデルで克服するために、いくつかの努力が注がれている。
しかし,既存のVQA手法がすべてVQAを分類タスクとしたにもかかわらず,回答特徴空間学習の角度から対処する研究は行われていない。
このことから着想を得た本研究では,特徴空間学習の観点から,言語先行問題への取り組みを試みる。
この目的のために、各質問タイプにおける頻繁かつスパースな回答特徴空間を適切に識別するように適応されたマージンコサイン損失を設計する。
その結果、言語モダリティの限られたパターンは大幅に削減され、そのため、我々の手法で導入される言語先行パターンは少なくなる。
この損失関数を複数のベースラインモデルに適用し、2つのVQA-CPベンチマーク上での有効性を評価する。
実験結果から,我々の適応余剰余剰余弦損失は平均15倍の絶対的な性能向上率でベースラインモデルを大幅に向上し,回答特徴空間学習の角度からVQAにおける言語先行問題に対処する可能性を強く検証した。
関連論文リスト
- Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - Overcoming Language Priors in Visual Question Answering via
Distinguishing Superficially Similar Instances [17.637150597493463]
本稿では,VQAモデルに対して,仮想的に類似したインスタンスの区別を明示的に促す新しいトレーニングフレームワークを提案する。
我々は、解空間におけるインスタンスとそれに対応するモジュール間の距離を増やすために、提案された区別モジュールを利用する。
実験の結果,VQA-CP v2の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-09-18T10:30:44Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Estimating semantic structure for the VQA answer space [6.49970685896541]
3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。
VQAv2-CPデータセットのSOTAレベル性能について報告する。
論文 参考訳(メタデータ) (2020-06-10T08:32:56Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。