論文の概要: Mitigating Object Hallucination via Data Augmented Contrastive Tuning
- arxiv url: http://arxiv.org/abs/2405.18654v1
- Date: Tue, 28 May 2024 23:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:23:36.501163
- Title: Mitigating Object Hallucination via Data Augmented Contrastive Tuning
- Title(参考訳): データ拡張コントラストチューニングによる物体幻覚の緩和
- Authors: Pritam Sarkar, Sayna Ebrahimi, Ali Etemad, Ahmad Beirami, Sercan Ö. Arık, Tomas Pfister,
- Abstract要約: MLLM(Multimodal Large Language Models)は、事実的に不正確な情報を幻覚させる傾向がある。
そこで本研究では,幻覚を緩和するための既訓練オフザシェルフMLLMに適用可能なコントラストチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 52.43197107069751
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite their remarkable progress, Multimodal Large Language Models (MLLMs) tend to hallucinate factually inaccurate information. In this work, we address object hallucinations in MLLMs, where information is offered about an object that is not present in the model input. We introduce a contrastive tuning method that can be applied to a pretrained off-the-shelf MLLM for mitigating hallucinations while preserving its general vision-language capabilities. For a given factual token, we create a hallucinated token through generative data augmentation by selectively altering the ground-truth information. The proposed contrastive tuning is applied at the token level to improve the relative likelihood of the factual token compared to the hallucinated one. Our thorough evaluation confirms the effectiveness of contrastive tuning in mitigating hallucination. Moreover, the proposed contrastive tuning is simple, fast, and requires minimal training with no additional overhead at inference.
- Abstract(参考訳): その顕著な進歩にもかかわらず、MLLM(Multimodal Large Language Models)は事実的不正確な情報を幻覚する傾向がある。
本研究では,MLLMのオブジェクト幻覚に対処し,モデル入力に存在しないオブジェクトに関する情報を提供する。
本稿では,幻覚を緩和するための事前訓練された既成のMLLMに適用可能な,一般的な視覚言語機能を維持しつつ,コントラスト的なチューニング手法を提案する。
与えられた実数トークンに対して,地筋情報を選択的に変更することにより,生成データ拡張による幻覚トークンを作成する。
提案したコントラッシブチューニングはトークンレベルで適用され、幻覚化トークンと比較して事実トークンの相対的可能性を向上させる。
本研究は,幻覚の緩和におけるコントラストチューニングの有効性を徹底的に評価する。
さらに、提案するコントラストチューニングは単純で高速で、推論時に追加のオーバーヘッドを伴わずに最小限のトレーニングを必要とする。
関連論文リスト
- Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。