論文の概要: STEAR: Layer-Aware Spatiotemporal Evidence Intervention for Hallucination Mitigation in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2604.03045v1
- Date: Fri, 03 Apr 2026 13:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.487895
- Title: STEAR: Layer-Aware Spatiotemporal Evidence Intervention for Hallucination Mitigation in Video Large Language Models
- Title(参考訳): STEAR:ビデオ大言語モデルにおけるハロシン化緩和のための層認識時空間的エビデンス介入
- Authors: Linfeng Fan, Yuan Tian, Ziwei Li, Zhiwu Lu,
- Abstract要約: 大型ビデオ言語モデル (Video-LLMs) は幻覚を起こす傾向があり、しばしば視覚的にサポートされない時間的関係や誤った時間的関係を生じる。
リスクの高いデコードステップを識別し,中間層からトークン条件の視覚的エビデンスを選択するSTEARを提案する。
実験により、STEARは時間的一貫性、忠実性、堅牢性を改善しながら、幻覚を一貫して減少させることが示された。
- 参考スコア(独自算出の注目度): 14.848157882117613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (Video-LLMs) remain prone to spatiotemporal hallucinations, often generating visually unsupported details or incorrect temporal relations. Existing mitigation methods typically treat hallucination as a uniform decoding failure, applying globally shared correction rules. We instead observe that decoder layers contribute differently to visual grounding and later linguistic composition, indicating that intervention must be layer-aware. Based on this insight, we propose STEAR, a layer-aware spatiotemporal evidence intervention framework. STEAR identifies high-risk decoding steps and selects token-conditioned visual evidence from grounding-sensitive middle layers. It uses this shared evidence for two coupled purposes: restoring missing local grounding in middle layers, and constructing temporally perturbed patch-level counterfactuals to falsify inconsistent reasoning during late-layer decoding. Consequently, STEAR mitigates both spatial and temporal hallucinations within an efficient single-encode inference framework. Experiments across representative Video-LLM backbones and challenging benchmarks demonstrate that STEAR consistently reduces hallucinations while improving faithfulness, temporal consistency, and robustness. Our results confirm that reliable video decoding relies on intervening on precise evidence at the right layer, rather than enforcing a global penalty. The code is provided in the Supplementary Material.
- Abstract(参考訳): Video Large Language Models (Video-LLMs) は時空間幻覚の傾向があり、しばしば視覚的にサポートされていない詳細や誤った時間関係を生成する。
既存の緩和法は、幻覚を一様復号失敗として扱い、国際的に共有された修正規則を適用している。
代わりに、デコーダ層が視覚的接地や後続の言語構成に異なる貢献をするのを観察し、介入は層認識でなければならないことを示す。
この知見に基づいて,階層型時空間証拠介入フレームワークSTEARを提案する。
STEARはリスクの高いデコーディングステップを特定し、グラウンディングに敏感な中間層からトークン条件の視覚的エビデンスを選択する。
この共有された証拠は、中間層における欠落した局所的な接地を復元することと、後期層復号時の矛盾した推論を偽装するために、時間的に摂動されたパッチレベルの反事実を構築することである。
これにより、STEARは、効率的な単一エンコード推論フレームワーク内の空間的および時間的幻覚を緩和する。
代表的なビデオ-LLMバックボーンと挑戦的なベンチマークによる実験は、STEARが一貫して幻覚を減らし、忠実さ、時間的一貫性、堅牢性を改善していることを示している。
以上の結果から,信頼性の高いビデオ復号化は,グローバルなペナルティを強制するのではなく,適切な層における正確な証拠の介入に依存することが確認された。
コードは補足資料に記載されている。
関連論文リスト
- SAGE: Sink-Aware Grounded Decoding for Multimodal Hallucination Mitigation [33.381194425912234]
視覚言語モデル(VLM)はしばしば幻覚に悩まされ、視覚入力と矛盾するコンテンツを生成する。
SAGE, Sink-Aware Grounded Decoding frameworkは, 生成中の自己注意を動的に調節することで幻覚を緩和する。
本手法は,MSCOCOでは10.65%,AMBERでは7.19%の相対的改善を実現している。
論文 参考訳(メタデータ) (2026-03-29T22:52:03Z) - INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs [69.11382230669491]
ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚
textscINFACTは、4つのモードでモデルを評価する。
14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
論文 参考訳(メタデータ) (2026-03-12T03:03:16Z) - MACD: Model-Aware Contrastive Decoding via Counterfactual Data [0.0]
ビデオ言語モデル(Video-LLMs)は幻覚を起こす傾向があり、視覚的証拠が弱く、曖昧で、偏見があるときに、しばしば可塑性だが、根拠のないコンテンツを生成する。
モデル誘導対実データに基づくコントラストデコーディング(MACD)を提案し,モデル誘導対実データ構築とデコーディングを組み合わせた新しい推論手法を提案する。
我々のアプローチでは、ビデオLLM自身のフィードバックを用いて、幻覚に最も責任があるオブジェクト領域を特定し、任意のフレームや時間的修正ではなく、オブジェクトレベルでターゲットの反事実入力を生成する。
論文 参考訳(メタデータ) (2026-02-02T07:21:02Z) - SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。