論文の概要: SAVE: Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination
- arxiv url: http://arxiv.org/abs/2512.07730v1
- Date: Mon, 08 Dec 2025 17:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.976972
- Title: SAVE: Sparse Autoencoder-Driven Visual Information Enhancement for Mitigating Object Hallucination
- Title(参考訳): SAVE: オブジェクトの幻覚を緩和するスパースオートエンコーダ駆動型視覚情報強調
- Authors: Sangha Park, Seungryong Yoo, Jisoo Mok, Sungroh Yoon,
- Abstract要約: Sparse Autoencoderの潜在機能に沿ってモデルを操ることで幻覚を緩和するフレームワークであるSAVEを提案する。
バイナリオブジェクトプレゼンス質問回答プローブは、モデルの視覚情報処理を最も示唆するSAEの特徴を識別する。
SAVEはシンプルな設計で、標準的なベンチマークで最先端のトレーニングフリーメソッドより優れている。
- 参考スコア(独自算出の注目度): 48.601385640941935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have advanced substantially, they remain vulnerable to object hallucination caused by language priors and visual information loss. To address this, we propose SAVE (Sparse Autoencoder-Driven Visual Information Enhancement), a framework that mitigates hallucination by steering the model along Sparse Autoencoder (SAE) latent features. A binary object-presence question-answering probe identifies the SAE features most indicative of the model's visual information processing, referred to as visual understanding features. Steering the model along these identified features reinforces grounded visual understanding and effectively reduces hallucination. With its simple design, SAVE outperforms state-of-the-art training-free methods on standard benchmarks, achieving a 10\%p improvement in CHAIR\_S and consistent gains on POPE and MMHal-Bench. Extensive evaluations across multiple models and layers confirm the robustness and generalizability of our approach. Further analysis reveals that steering along visual understanding features suppresses the generation of uncertain object tokens and increases attention to image tokens, mitigating hallucination. Code is released at https://github.com/wiarae/SAVE.
- Abstract(参考訳): MLLM (Multimodal Large Language Models) は大幅に進歩しているが,言語先行や視覚情報損失による物体幻覚に弱いままである。
そこで我々は,SAVE (Sparse Autoencoder-Driven Visual Information Enhancement) を提案する。SAE (Sparse Autoencoder-Driven Visual Information Enhancement) は,Sparse Autoencoder (SAE) の潜在機能に沿ってモデルを操り,幻覚を緩和するフレームワークである。
バイナリオブジェクトプレゼンス質問回答プローブは、SAEが視覚的理解機能と呼ばれるモデルの視覚情報処理を最も示唆する特徴を識別する。
これらの特徴に沿ってモデルをステアリングすることは、基礎となる視覚的理解を強化し、幻覚を効果的に減少させる。
SAVEはシンプルな設計で、標準的なベンチマークで最先端のトレーニングフリーメソッドより優れており、CHAIR\_Sで10倍改善され、POPEとMMHal-Benchで一貫したゲインを得た。
複数のモデルや層にまたがる広範囲な評価により、我々のアプローチの堅牢性と一般化性が確認される。
さらに、視覚的理解機能によるステアリングは、不確実なオブジェクトトークンの生成を抑制し、画像トークンへの注意を高め、幻覚を緩和することを明らかにする。
コードはhttps://github.com/wiarae/SAVE.comで公開されている。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。
膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。
幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。
従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T00:39:31Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。