論文の概要: Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.11824v1
- Date: Thu, 12 Feb 2026 11:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.780308
- Title: Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models
- Title(参考訳): 改訂:大型視覚言語モデルにおける物体幻覚緩和のためのスパース遅延ステアリング
- Authors: Jialin Wu, Wei Shi, Han Shen, Peigui Qi, Kunsheng Tang, Zhicong Huang, Binghao Wang, Zhou Yang,
- Abstract要約: REVISは、抑圧された視覚情報を明示的に再活性化するために設計されたトレーニング不要のフレームワークである。
その結果,REVISは最先端のベースラインに比べて物体幻覚率を約19%削減できることがわかった。
- 参考スコア(独自算出の注目度): 18.624825577944854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the advanced capabilities of Large Vision-Language Models (LVLMs), they frequently suffer from object hallucination. One reason is that visual features and pretrained textual representations often become intertwined in the deeper network layers. To address this, we propose REVIS, a training-free framework designed to explicitly re-activate this suppressed visual information. Rooted in latent space geometry, REVIS extracts the pure visual information vector via orthogonal projection and employs a calibrated strategy to perform sparse intervention only at the precise depth where suppression occurs. This surgical approach effectively restores visual information with minimal computational cost. Empirical evaluations on standard benchmarks demonstrate that REVIS reduces object hallucination rates by approximately 19% compared to state-of-the-art baselines, while preserving general reasoning capabilities.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の高度な能力にもかかわらず、それらはしばしば物体幻覚に悩まされる。
1つの理由は、視覚的特徴と事前訓練されたテキスト表現が、しばしばより深いネットワーク層に絡み合うためである。
そこで我々は,この抑圧された視覚情報を明示的に再活性化するためのトレーニングフリーフレームワークであるREVISを提案する。
遅延空間幾何学で回転されたREVISは、直交射影を通して純粋な視覚情報ベクトルを抽出し、調整された戦略を用いて、抑制が起こる正確な深さでのみスパース介入を行う。
この手術的アプローチは、最小の計算コストで視覚情報を効果的に復元する。
標準ベンチマークの実証評価では、REVISは一般的な推論能力を保ちながら、最先端のベースラインと比較してオブジェクト幻覚率を約19%削減する。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。
我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-08-05T07:41:25Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Seeing It or Not? Interpretable Vision-aware Latent Steering to Mitigate Object Hallucinations [11.474045796965056]
LVLM(Large Vision-Language Models)は目覚ましい成功を収めているが、物体幻覚(OH)との闘いは続いている。
本稿では,LVLMにおけるOHに対処する解釈的緩和戦略を採用した視覚対応遅延ステアリングフレームワークであるVaseを提案する。
論文 参考訳(メタデータ) (2025-05-23T12:29:00Z) - OViP: Online Vision-Language Preference Learning for VLM Hallucination [44.14029765850719]
大型視覚言語モデル(LVLM)は幻覚に弱いままであり、しばしば視覚入力と一致しないコンテンツを生成する。
本稿では,モデル自身の幻覚に基づいて,コントラスト学習データを動的に構築するオンラインビジョン言語嗜好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T19:26:09Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。