論文の概要: Debiasing Large Visual Language Models
- arxiv url: http://arxiv.org/abs/2403.05262v1
- Date: Fri, 8 Mar 2024 12:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:58:59.695027
- Title: Debiasing Large Visual Language Models
- Title(参考訳): 大規模ビジュアル言語モデルのデバイアス
- Authors: Yi-Fan Zhang, Weichen Yu, Qingsong Wen, Xue Wang, Zhang Zhang, Liang
Wang, Rong Jin, and Tieniu Tan
- Abstract要約: LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
- 参考スコア(独自算出の注目度): 61.6896704217147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realms of computer vision and natural language processing, Large
Vision-Language Models (LVLMs) have become indispensable tools, proficient in
generating textual descriptions based on visual inputs. Despite their
advancements, our investigation reveals a noteworthy bias in the generated
content, where the output is primarily influenced by the underlying Large
Language Models (LLMs) prior rather than the input image. Our empirical
experiments underscore the persistence of this bias, as LVLMs often provide
confident answers even in the absence of relevant images or given incongruent
visual input. To rectify these biases and redirect the model's focus toward
vision information, we introduce two simple, training-free strategies. Firstly,
for tasks such as classification or multi-choice question-answering (QA), we
propose a ``calibration'' step through affine transformation to adjust the
output distribution. This ``Post-Hoc debias'' approach ensures uniform scores
for each answer when the image is absent, serving as an effective
regularization technique to alleviate the influence of LLM priors. For more
intricate open-ended generation tasks, we extend this method to ``Debias
sampling'', drawing inspirations from contrastive decoding methods.
Furthermore, our investigation sheds light on the instability of LVLMs across
various decoding configurations. Through systematic exploration of different
settings, we significantly enhance performance, surpassing reported results and
raising concerns about the fairness of existing evaluations. Comprehensive
experiments substantiate the effectiveness of our proposed strategies in
mitigating biases. These strategies not only prove beneficial in minimizing
hallucinations but also contribute to the generation of more helpful and
precise illustrations.
- Abstract(参考訳): コンピュータビジョンや自然言語処理の分野では、大きな視覚言語モデル(lvlm)が必須のツールとなり、視覚入力に基づいてテキスト記述を生成するのに熟達している。
それらの進歩にもかかわらず,本研究は,入力画像よりも基礎となるLarge Language Models (LLM) の影響を主に受け,生成コンテンツに顕著なバイアスを生じさせる。
LVLMは、関連画像の欠如や、不連続な視覚入力であっても、自信ある回答を提供することが多いため、我々の実証実験は、このバイアスの持続性を強調している。
これらのバイアスを正し、モデルのビジョン情報への焦点をリダイレクトするために、2つの単純なトレーニングフリー戦略を導入する。
まず、分類や複数選択質問応答(QA)といったタスクに対して、アフィン変換による「校正」ステップを提案し、出力分布の調整を行う。
この ‘post-hoc debias'' アプローチは、画像が存在しない場合、各回答の均一なスコアを確保し、llm事前の影響を軽減する効果的な正規化技術となる。
より複雑なオープンエンド生成タスクに対しては、このメソッドを `Debias sample'' に拡張し、対照的な復号法からインスピレーションを引き出す。
さらに,本研究では,様々な復号化構成におけるLVLMの不安定性について検討した。
異なる設定の体系的な探索を通じて、性能を著しく向上させ、報告結果を上回っ、既存の評価の公平性に対する懸念を高める。
包括的実験はバイアス緩和における提案手法の有効性を実証する。
これらの戦略は幻覚の最小化に有用であるだけでなく、より有用で正確な図面の生成にも貢献する。
関連論文リスト
- Strengthening Multimodal Large Language Model with Bootstrapped
Preference Optimization [26.558671454453993]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Causal Prompting: Debiasing Large Language Model Prompting based on
Front-Door Adjustment [24.932188867289533]
大規模言語モデルのバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は3つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Open-Vocabulary Calibration for Vision-Language Models [47.49678788598922]
微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。
本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。
本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:42:48Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Towards Realistic Unsupervised Fine-tuning with CLIP [108.45391206730402]
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的な微調整手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーを最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
UEOは一般化とアウト・オブ・ディストリビューション検出の両方の観点から,ベースライン法を超越していることを示す。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。