論文の概要: Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2501.05690v1
- Date: Fri, 10 Jan 2025 03:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:26.504138
- Title: Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation
- Title(参考訳): 知識蒸留に基づく視覚的質問応答のための言語優先事項の克服
- Authors: Daowan Peng, Wei Wei,
- Abstract要約: 従来の研究では、視覚的質問応答(VQA)モデルは、解答予測に言語優先に依存する傾向があることが指摘されている。
本稿では, VQAタスクにおける先行性ジレンマに対処するため, 知識蒸留を利用した新しい手法KDARを提案する。
提案手法は, VQA-CPv2out-of-distribution (OOD)ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 7.755718939237373
- License:
- Abstract: Previous studies have pointed out that visual question answering (VQA) models are prone to relying on language priors for answer predictions. In this context, predictions often depend on linguistic shortcuts rather than a comprehensive grasp of multimodal knowledge, which diminishes their generalization ability. In this paper, we propose a novel method, namely, KDAR, leveraging knowledge distillation to address the prior-dependency dilemmas within the VQA task. Specifically, the regularization effect facilitated by soft labels from a well-trained teacher is employed to penalize overfitting to the most common answers. The soft labels, which serve a regularization role, also provide semantic guidance that narrows the range of candidate answers. Additionally, we design an adaptive sample-wise reweighting learning strategy to further mitigate bias by dynamically adjusting the importance of each sample. Experimental results demonstrate that our method enhances performance in both OOD and IID settings. Our method achieves state-of-the-art performance on the VQA-CPv2 out-of-distribution (OOD) benchmark, significantly outperforming previous state-of-the-art approaches.
- Abstract(参考訳): 従来の研究では、視覚的質問応答(VQA)モデルは、解答予測に言語優先に依存する傾向があることが指摘されている。
この文脈では、予測は多モーダル知識の包括的把握よりも言語的ショートカットに依存することが多く、一般化能力は低下する。
本稿では,VQAタスクにおける先行依存性ジレンマに対処するため,知識蒸留を利用した新しい手法KDARを提案する。
具体的には,教師のソフトラベルによって促進される正規化効果を利用して,最も一般的な回答に対する過度な適合を罰する。
正規化の役割を担うソフトラベルは、候補回答の範囲を狭める意味的なガイダンスを提供する。
さらに,各サンプルの重要度を動的に調整することでバイアスを緩和する適応型サンプルワイド学習戦略を設計する。
実験の結果,OOD設定とID設定の両方で性能が向上することが確認された。
提案手法は, VQA-CPv2out-of-distribution (OOD)ベンチマークにおける最先端性能を実現し, 従来の最先端手法よりも大幅に優れていた。
関連論文リスト
- CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。
我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-26T03:28:59Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Robust Visual Question Answering: Datasets, Methods, and Future
Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文 参考訳(メタデータ) (2023-07-21T10:12:09Z) - Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA [111.41719652451701]
まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。
次に、この効果の影響を除去するための反実的推論を提案する。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-31T09:02:58Z) - An Empirical Study on the Language Modal in Visual Question Answering [31.692905677913068]
ドメイン内エクスペリエンスからアウト・オブ・ディストリビューションデータへの一般化は、AIドメインにおいて最重要事項である。
本稿では,VQAの性能に及ぼす言語モダリティの影響について,新たな知見を提供する。
論文 参考訳(メタデータ) (2023-05-17T11:56:40Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Introspective Distillation for Robust Question Answering [70.18644911309468]
質問応答(QA)モデルは、例えば、視覚的QAに先行する言語や、読解における位置バイアスなど、データのバイアスを利用するためによく知られている。
近年の脱バイアス法は, 分配内(ID)性能のかなりの犠牲を伴い, 分配外(OOD)の一般化性を良好に達成している。
IntroD(Introspective Distillation)と呼ばれる新しい脱湿法を提案し,両者のQAを最大限に活用する。
論文 参考訳(メタデータ) (2021-11-01T15:30:15Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。