論文の概要: CRoPS: A Training-Free Hallucination Mitigation Framework for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.00659v1
- Date: Fri, 02 Jan 2026 11:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.563383
- Title: CRoPS: A Training-Free Hallucination Mitigation Framework for Vision-Language Models
- Title(参考訳): CRoPS:ビジョンランゲージモデルのためのトレーニング不要の幻覚軽減フレームワーク
- Authors: Neeraj Anand, Samyak Jha, Udbhav Bamba, Rahul Rahaman,
- Abstract要約: 幻覚コンテンツは、現実世界での使用において信頼性を損なう。
新しいモデルは、キーテキストトークンを選択的に削除することで幻覚効果をキャプチャする。
一般化されたコントラストデコーディングは、多様な幻覚源を表現するために複数の幻覚モデルを統合する。
- 参考スコア(独自算出の注目度): 3.0991186209192794
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the rapid success of Large Vision-Language Models (LVLMs), a persistent challenge is their tendency to generate hallucinated content, undermining reliability in real-world use. Existing training-free methods address hallucinations but face two limitations: (i) they rely on narrow assumptions about hallucination sources, and (ii) their effectiveness declines toward the end of generation, where hallucinations are most likely to occur. A common strategy is to build hallucinated models by completely or partially removing visual tokens and contrasting them with the original model. Yet, this alone proves insufficient, since visual information still propagates into generated text. Building on this insight, we propose a novel hallucinated model that captures hallucination effects by selectively removing key text tokens. We further introduce Generalized Contrastive Decoding, which integrates multiple hallucinated models to represent diverse hallucination sources. Together, these ideas form CRoPS, a training-free hallucination mitigation framework that improves CHAIR scores by 20% and achieves consistent gains across six benchmarks and three LVLM families, outperforming state-of-the-art training-free methods.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の急速な成功にもかかわらず、持続的な課題は、幻覚コンテンツを生成する傾向にあり、実際の使用における信頼性を損なうことである。
既存のトレーニングフリーメソッドは幻覚に対処するが、2つの制限に直面している。
一 幻覚源の狭い前提に依存して、
(二)その効果は世代末にかけて低下し、幻覚が起こる可能性が最も高い。
一般的な戦略は、視覚的トークンを完全にあるいは部分的に取り除き、元のモデルと対比することによって幻覚モデルを構築することである。
しかし、視覚情報はまだ生成したテキストに伝播するため、この方法だけでは不十分である。
この知見に基づいて,キーテキストトークンを選択的に除去することで幻覚効果を捉える新しい幻覚モデルを提案する。
さらに,多様な幻覚源を表現するために複数の幻覚モデルを統合する汎用コントラストデコーディングを導入する。
CRoPSは、CAIRのスコアを20%改善し、6つのベンチマークと3つのLVLMファミリで一貫したゲインを達成し、最先端のトレーニングフリーメソッドよりも優れています。
関連論文リスト
- HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images [9.716231984097313]
VLM(Large Vision-Language Models)は様々なマルチモーダルタスクにおいて顕著な成功を収めているが、固有の言語バイアスに根ざした幻覚に弱いままである。
本研究では,ハロシン化誘導画像(HII)を正確に合成する新しいパイプラインを設計する。
合成HIIを用いて一貫したシーン条件の幻覚パターンを明らかにする。
提案手法は, 標準的な幻覚ベンチマークにおいて, 最先端の38%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-11T02:11:02Z) - Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors [8.089908150148554]
マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な成功を収めている。
MLLMは幻覚に非常に敏感であり、視覚的証拠とは相容れない内容を生み出す。
本研究では,幻覚の緩和のための訓練不要で自己指導的な方法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:28Z) - Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations [73.37711261605271]
幻覚緩和法は主に嗜好アライメントに基づいており、嗜好データ収集には外部の人間のアノテーションや補助モデルが必要である。
本稿では,外部依存を伴わない幻覚を緩和する新規で一般化可能な手法である自己注入による自律的選好アライメント(APASI)を提案する。
APASIはターゲットのLVLMを利用して、生成した応答に幻覚を自己注入し、好みのレベルが異なるペアの応答を生成する。
論文 参考訳(メタデータ) (2025-09-14T14:26:53Z) - Two Causes, Not One: Rethinking Omission and Fabrication Hallucinations in MLLMs [31.601057368065877]
既存の手法は、省略と製造幻覚が共通の原因を共有するという欠点のある仮定に基づいており、しばしば省略を減らし、より多くの製造を誘発する。
本研究は,視覚的特徴を言語表現にマッピングする場合に,排他的幻覚が不十分な自信から生じることを示すことによって,この見解を覆すものである。
本研究では,物体の存在や不在を視覚的証拠がどのように推測するかを明らかにする概念的枠組みである視覚意味的注意力場を提案する。
論文 参考訳(メタデータ) (2025-08-30T05:47:41Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。
孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。
拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2024-10-04T06:24:49Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。