論文の概要: Relaxing Anchor-Frame Dominance for Mitigating Hallucinations in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2604.12582v1
- Date: Tue, 14 Apr 2026 11:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.406646
- Title: Relaxing Anchor-Frame Dominance for Mitigating Hallucinations in Video Large Language Models
- Title(参考訳): ビデオ大言語モデルにおける幻覚の緩和のためのアンカーフレームの緩和
- Authors: Zijian Liu, Sihan Cao, Pengcheng Zheng, Kuien Liu, Caiyan Qin, Xiaolin Qin, Jiwei Wei, Chaoning Zhang,
- Abstract要約: 最近のビデオ大言語モデル(ビデオ-LLM)は、ビデオ理解において強力な能力を示しているが、幻覚に悩まされている。
モデルが時間的に不均衡な濃度パターンを示すデコーダ側現象について検討する。
そこで本稿では,Decoder-side Temporal Rebalancing (DTR)を提案する。
- 参考スコア(独自算出の注目度): 22.554751069064906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Video Large Language Models (Video-LLMs) have demonstrated strong capability in video understanding, yet they still suffer from hallucinations. Existing mitigation methods typically rely on training, input modification, auxiliary guidance, or additional decoding procedures, while largely overlooking a more fundamental challenge. During generation, Video-LLMs tend to over-rely on a limited portion of temporal evidence, leading to temporally imbalanced evidence aggregation across the video. To address this issue, we investigate a decoder-side phenomenon in which the model exhibits a temporally imbalanced concentration pattern. We term the frame with the highest aggregated frame-level attention mass the anchor frame. We find that this bias is largely independent of the input video and instead appears to reflect a persistent, model-specific structural or positional bias, whose over-dominance is closely associated with hallucination-prone generation. Motivated by this insight, we propose Decoder-side Temporal Rebalancing (DTR), a training-free, layer-selective inference method that rebalances temporal evidence allocation in middle-to-late decoder layers without altering visual encoding or requiring auxiliary models. DTR adaptively calibrates decoder-side visual attention to alleviate temporally imbalanced concentration and encourage under-attended frames to contribute more effectively to response generation. In this way, DTR guides the decoder to ground its outputs in temporally broader and more balanced video evidence. Extensive experiments on hallucination and video understanding benchmarks show that DTR consistently improves hallucination robustness across diverse Video-LLM families, while preserving competitive video understanding performance and high inference efficiency.
- Abstract(参考訳): 最近のビデオ大言語モデル(ビデオ-LLM)は、ビデオ理解において強力な能力を示しているが、幻覚に悩まされている。
既存の緩和方法は、訓練、入力修正、補助的なガイダンス、追加の復号手順に頼っているのが一般的である。
世代間、ビデオ-LLMは時間的証拠の限られた部分で過度に反応し、ビデオ全体で時間的に不均衡な証拠が蓄積される傾向にある。
この問題に対処するために,モデルが時間的に不均衡な濃度パターンを示すデコーダ側現象について検討する。
フレームは、アンカーフレームを最も集約したフレームレベルのアテンションマスで表現する。
このバイアスは入力ビデオとは大きく独立しており、その代わりに、持続的、モデル固有の構造的または位置的バイアスを反映しているように見える。
そこで本研究では,Decoder-side Temporal Rebalancing (DTR)を提案する。この手法は,視覚的エンコーディングや補助モデルの変更を伴わずに,中間層から後期層への時間的エビデンスアロケーションを再バランスさせる訓練自由層選択型推論手法である。
DTRはデコーダ側の視覚的注意を適応的に校正し、時間的に不均衡な濃度を緩和し、過度なフレームが応答生成により効果的に寄与するように促す。
このようにして、DTRはデコーダに、その出力を時間的に広く、よりバランスの取れたビデオエビデンスに基礎を置くように誘導する。
幻覚とビデオ理解のベンチマークに関する大規模な実験により、DTRは、競争力のあるビデオ理解性能と高い推論効率を維持しながら、多様なビデオ-LLMファミリー間の幻覚の堅牢性を一貫して改善することが示された。
関連論文リスト
- STEAR: Layer-Aware Spatiotemporal Evidence Intervention for Hallucination Mitigation in Video Large Language Models [14.848157882117613]
大型ビデオ言語モデル (Video-LLMs) は幻覚を起こす傾向があり、しばしば視覚的にサポートされない時間的関係や誤った時間的関係を生じる。
リスクの高いデコードステップを識別し,中間層からトークン条件の視覚的エビデンスを選択するSTEARを提案する。
実験により、STEARは時間的一貫性、忠実性、堅牢性を改善しながら、幻覚を一貫して減少させることが示された。
論文 参考訳(メタデータ) (2026-04-03T13:52:57Z) - Learning to Decode Against Compositional Hallucination in Video Multimodal Large Language Models [44.84227796501077]
ビデオマルチモーダル大言語モデル(VLLM)における孤立幻覚と構成幻覚の両方を評価するためのベンチマークであるOmniVCHallを紹介する。
3方向キャリブレーション機構を備えたコントラストデコーディングフレームワークであるTriCDを提案する。
実験の結果,TriCDは2つの代表的なバックボーンで連続的に性能を向上し,平均精度が10%以上向上した。
論文 参考訳(メタデータ) (2026-01-31T06:50:43Z) - SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models [4.677212795400693]
弱い構造的監督下での視覚のパッチ動作は、物体幻覚の寄与要因として機能する。
SDCD(Structure-Disrupted Contrastive Decoding)と呼ばれる学習不要のアルゴリズムを導入する。
この構造のない視点下で高い信頼を維持するトークンをペナライズすることにより、SDCDはテクスチャ駆動バイアスを効果的に抑制する。
論文 参考訳(メタデータ) (2026-01-07T01:27:58Z) - SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。