Fugu-MT 論文翻訳(概要): An Empirical Study on the Language Modal in Visual Question Answering

論文の概要: An Empirical Study on the Language Modal in Visual Question Answering

arxiv url: http://arxiv.org/abs/2305.10143v2
Date: Tue, 5 Sep 2023 02:52:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 05:14:53.957621
Title: An Empirical Study on the Language Modal in Visual Question Answering
Title（参考訳）: 視覚質問応答における言語モーダルに関する経験的研究
Authors: Daowan Peng, Wei Wei, Xian-Ling Mao, Yuanyuan Fu, Dangyang Chen
Abstract要約: ドメイン内エクスペリエンスからアウト・オブ・ディストリビューションデータへの一般化は、AIドメインにおいて最重要事項である。本稿では,VQAの性能に及ぼす言語モダリティの影響について,新たな知見を提供する。
参考スコア（独自算出の注目度）: 31.692905677913068
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generalization beyond in-domain experience to out-of-distribution data is of paramount significance in the AI domain. Of late, state-of-the-art Visual Question Answering (VQA) models have shown impressive performance on in-domain data, partially due to the language priors bias which, however, hinders the generalization ability in practice. This paper attempts to provide new insights into the influence of language modality on VQA performance from an empirical study perspective. To achieve this, we conducted a series of experiments on six models. The results of these experiments revealed that, 1) apart from prior bias caused by question types, there is a notable influence of postfix-related bias in inducing biases, and 2) training VQA models with word-sequence-related variant questions demonstrated improved performance on the out-of-distribution benchmark, and the LXMERT even achieved a 10-point gain without adopting any debiasing methods. We delved into the underlying reasons behind these experimental results and put forward some simple proposals to reduce the models' dependency on language priors. The experimental results demonstrated the effectiveness of our proposed method in improving performance on the out-of-distribution benchmark, VQA-CPv2. We hope this study can inspire novel insights for future research on designing bias-reduction approaches.
Abstract（参考訳）: ドメイン内エクスペリエンスを越えた分散データへの一般化は、aiドメインにおいて最も重要な意味を持つ。 vqa(state-of-the-art visual question answering)モデルは、言語がバイアスを優先していることもあって、ドメイン内データで印象的なパフォーマンスを示しているが、実際には一般化能力を妨げる。本稿では,言語モダリティがVQAパフォーマンスに与える影響について,実証的研究の観点から新たな知見を提供する。これを実現するために、6つのモデルで一連の実験を行った。これらの実験の結果、 1) 質問タイプによる先行バイアスとは別に、修正後のバイアスがバイアスの誘発に顕著な影響がある。 2) 単語系列に関連した変種質問によるvqaモデルの訓練は, 分散ベンチマークの性能向上を実証し, lxmertはデバイアス手法を用いずに10点のゲインを達成した。これらの実験結果の背後にある根本的な理由を掘り下げて、モデルの言語前の依存性を減らすための簡単な提案を行った。実験の結果,提案手法が分散ベンチマークであるvqa-cpv2の性能向上に有効であることが示された。この研究がバイアス還元アプローチの設計に関する今後の研究に新たな洞察をもたらすことを期待している。

関連論文リスト

Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation [7.755718939237373]
従来の研究では、視覚的質問応答(VQA)モデルは、解答予測に言語優先に依存する傾向があることが指摘されている。本稿では, VQAタスクにおける先行性ジレンマに対処するため, 知識蒸留を利用した新しい手法KDARを提案する。提案手法は, VQA-CPv2out-of-distribution (OOD)ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-10T03:42:37Z)
Prompting or Fine-tuning? Exploring Large Language Models for Causal Graph Validation [0.0]
本研究では,因果グラフの因果性を評価するための大規模言語モデルの有用性について検討する。本研究では,(1)ゼロショットと少数ショットの因果推論のためのプロンプトベース手法,(2)因果関係予測タスクのための微調整言語モデルの比較を行った。
論文参考訳（メタデータ） (2024-05-29T09:06:18Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Robust Visual Question Answering: Datasets, Methods, and Future Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。 VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文参考訳（メタデータ） (2023-07-21T10:12:09Z)
Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA [111.41719652451701]
まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。次に、この効果の影響を除去するための反実的推論を提案する。提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
論文参考訳（メタデータ） (2023-05-31T09:02:58Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文参考訳（メタデータ） (2022-10-10T11:05:21Z)
Pre-training also Transfers Non-Robustness [20.226917627173126]
一般化への貢献が認められているにもかかわらず、事前学習は、事前訓練されたモデルから微調整されたモデルへの非破壊性も伝達する。その結果, 損耗を緩和し, 一般化を保ち, 有効性を検証した。
論文参考訳（メタデータ） (2021-06-21T11:16:13Z)
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文参考訳（メタデータ） (2020-10-30T00:57:17Z)
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。 MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文参考訳（メタデータ） (2020-09-18T00:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。