論文の概要: LPF: A Language-Prior Feedback Objective Function for De-biased Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2105.14300v1
- Date: Sat, 29 May 2021 13:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:47:46.538176
- Title: LPF: A Language-Prior Feedback Objective Function for De-biased Visual
Question Answering
- Title(参考訳): lpf:不偏視質問応答のための言語優先フィードバック目的関数
- Authors: Zujie Liang, Haifeng Hu and Jiaying Zhu
- Abstract要約: 本稿では,視覚的質問応答(VQA)損失における各回答の損失値の比率を再バランスさせるための,新たなLanguage-Prior Feedback(LPF)目標関数を提案する。
実験により, LPFは様々なVQAモデルに対して顕著な改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 11.845589863914853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing Visual Question Answering (VQA) systems tend to overly rely on
language bias and hence fail to reason from the visual clue. To address this
issue, we propose a novel Language-Prior Feedback (LPF) objective function, to
re-balance the proportion of each answer's loss value in the total VQA loss.
The LPF firstly calculates a modulating factor to determine the language bias
using a question-only branch. Then, the LPF assigns a self-adaptive weight to
each training sample in the training process. With this reweighting mechanism,
the LPF ensures that the total VQA loss can be reshaped to a more balanced
form. By this means, the samples that require certain visual information to
predict will be efficiently used during training. Our method is simple to
implement, model-agnostic, and end-to-end trainable. We conduct extensive
experiments and the results show that the LPF (1) brings a significant
improvement over various VQA models, (2) achieves competitive performance on
the bias-sensitive VQA-CP v2 benchmark.
- Abstract(参考訳): 既存のVisual Question Answering (VQA)システムの多くは、言語バイアスに過度に依存しているため、視覚的な手がかりから推論することができない。
この問題に対処するため,VQA損失における各回答の損失値の比率を再バランスする,新たなLanguage-Prior Feedback(LPF)目標関数を提案する。
LPFはまず、質問専用分岐を用いて言語バイアスを決定する変調係数を算出する。
そして、LPFは、トレーニングプロセスにおける各トレーニングサンプルに自己適応重量を割り当てる。
この再加重機構により、LPFは全VQA損失をよりバランスの取れた形に変形させることができる。
つまり、特定の視覚情報を必要とするサンプルは、トレーニング中に効率的に使用される。
本手法は, 実装が簡単で, モデルに依存しない, エンドツーエンドのトレーニングが可能である。
その結果,LPF(1)は様々なVQAモデルに対して有意な改善をもたらし,(2)バイアスに敏感なVQA-CP v2ベンチマーク上での競合性能を達成した。
関連論文リスト
- Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z) - Compressing And Debiasing Vision-Language Pre-Trained Models for Visual
Question Answering [25.540831728925557]
本稿では,スパースとロバストワークを探索することにより,視覚言語事前学習モデルを同時に圧縮・デバイアスできるかどうかを検討する。
以上の結果から, 疎水性, 頑健性は, 偏りに満ちた部分と競合することが明らかとなった。
車だ
論文 参考訳(メタデータ) (2022-10-26T08:25:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。