論文の概要: Exploring Causes and Mitigation of Hallucinations in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.16842v1
- Date: Mon, 24 Feb 2025 05:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:05.532723
- Title: Exploring Causes and Mitigation of Hallucinations in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおける幻覚の原因探索と緩和
- Authors: Yaqi Sun, Kyohei Atarashi, Koh Takeuchi, Hisashi Kashima,
- Abstract要約: Large Vision-Language Models (LVLM)は、画像エンコーダとLarge Language Models (LLM)を統合し、マルチモーダル入力を処理し、複雑な視覚タスクを実行する。
それらはしばしば、既存のオブジェクトや属性を記述することによって幻覚を生じさせ、その信頼性を損なう。
本研究では、画像キャプションにおける幻覚パターンを分析し、生成過程における全てのトークンが画像入力の影響を受けないことを示す。
- 参考スコア(独自算出の注目度): 24.241691571850403
- License:
- Abstract: Large Vision-Language Models (LVLMs) integrate image encoders with Large Language Models (LLMs) to process multi-modal inputs and perform complex visual tasks. However, they often generate hallucinations by describing non-existent objects or attributes, compromising their reliability. This study analyzes hallucination patterns in image captioning, showing that not all tokens in the generation process are influenced by image input and that image dependency can serve as a useful signal for hallucination detection. To address this, we develop an automated pipeline to identify hallucinated objects and train a token-level classifier using hidden representations from parallel inference passes-with and without image input. Leveraging this classifier, we introduce a decoding strategy that effectively controls hallucination rates in image captioning at inference time.
- Abstract(参考訳): Large Vision-Language Models (LVLM)は、画像エンコーダとLarge Language Models (LLM)を統合し、マルチモーダル入力を処理し、複雑な視覚タスクを実行する。
しかし、それらはしばしば、既存のオブジェクトや属性を記述することによって幻覚を生じさせ、その信頼性を損なう。
本研究では、画像キャプションにおける幻覚パターンを分析し、生成過程における全てのトークンが画像入力の影響を受けていないこと、および、画像依存が幻覚検出に有用な信号であることを示す。
そこで我々は, 画像入力を伴わずに, 並列推論による隠れ表現を用いて, 幻覚的物体を識別し, トークンレベルの分類器を訓練する自動パイプラインを開発した。
この分類器を活用することで、推論時の画像キャプションにおける幻覚率を効果的に制御する復号戦略を導入する。
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models [11.75855265467876]
トレーニング不要なコントラスト復号法であるConVisを導入する。
一般的な5つのベンチマーク実験により、ConVisは様々なMLLMの幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2024-08-25T18:02:36Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding [36.81476620057058]
LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。
現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存する。
CLIP-Guided Decoding approach to reduce object hallucination at decoding time。
論文 参考訳(メタデータ) (2024-02-23T12:57:16Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。