論文の概要: Diving into Mitigating Hallucinations from a Vision Perspective for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.13836v1
- Date: Wed, 17 Sep 2025 09:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.797952
- Title: Diving into Mitigating Hallucinations from a Vision Perspective for Large Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける視覚的視点からの幻覚の緩和
- Authors: Weihang Wang, Xinhao Li, Ziyue Wang, Yan Pang, Jielei Zhang, Peiyi Li, Qiang Zhang, Longwen Gao,
- Abstract要約: LVLM(Large Vision-Language Models)における物体幻覚は、現実の応用性を著しく阻害する。
本研究では,新しいコンテキスト対応ルーティングネットワークであるVisionWeaverを提案する。
グローバルな視覚機能を使用してルーティング信号を生成し、複数の専門専門家から視覚的特徴を動的に集約する。
- 参考スコア(独自算出の注目度): 19.45479056650684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object hallucination in Large Vision-Language Models (LVLMs) significantly impedes their real-world applicability. As the primary component for accurately interpreting visual information, the choice of visual encoder is pivotal. We hypothesize that the diverse training paradigms employed by different visual encoders instill them with distinct inductive biases, which leads to their diverse hallucination performances. Existing benchmarks typically focus on coarse-grained hallucination detection and fail to capture the diverse hallucinations elaborated in our hypothesis. To systematically analyze these effects, we introduce VHBench-10, a comprehensive benchmark with approximately 10,000 samples for evaluating LVLMs across ten fine-grained hallucination categories. Our evaluations confirm encoders exhibit unique hallucination characteristics. Building on these insights and the suboptimality of simple feature fusion, we propose VisionWeaver, a novel Context-Aware Routing Network. It employs global visual features to generate routing signals, dynamically aggregating visual features from multiple specialized experts. Comprehensive experiments confirm the effectiveness of VisionWeaver in significantly reducing hallucinations and improving overall model performance.
- Abstract(参考訳): LVLM(Large Vision-Language Models)における物体幻覚は、現実の応用性を著しく阻害する。
視覚情報を正確に解釈する主要な要素として、視覚エンコーダの選択が重要である。
我々は、異なる視覚エンコーダが採用する多様な訓練パラダイムが、異なる帰納バイアスを注入し、その多様な幻覚性能をもたらすことを仮定する。
既存のベンチマークでは、粗粒度の幻覚の検出に重点を置いており、我々の仮説に精通した多様な幻覚を捉えていない。
これらの効果を体系的に解析するために,10種類の微粒な幻覚カテゴリにわたるLVLMを評価するために,約10,000サンプルの総合的なベンチマークであるVHBench-10を紹介する。
本評価では,エンコーダに特有の幻覚特性が認められた。
これらの知見と単純な特徴融合の準最適性に基づいて、新しいコンテキスト対応ルーティングネットワークであるVisionWeaverを提案する。
グローバルな視覚機能を使用してルーティング信号を生成し、複数の専門専門家から視覚的特徴を動的に集約する。
総合的な実験により、幻覚を著しく低減し、全体のモデル性能を改善するためにVisionWeaverの有効性が確認された。
関連論文リスト
- Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。