論文の概要: SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2512.04643v1
- Date: Thu, 04 Dec 2025 10:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.110886
- Title: SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding
- Title(参考訳): SEASON:自己診断的コントラストデコーディングによるビデオ大言語モデルにおける時間的幻覚の緩和
- Authors: Chang-Hsun Wu, Kai-Po Chang, Yu-Yang Sheng, Hung-Kai Chung, Kuei-Chun Wang, Yu-Chiang Frank Wang,
- Abstract要約: 本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
- 参考スコア(独自算出の注目度): 30.820850789099932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VideoLLMs) have shown remarkable progress in video understanding. However, these models still struggle to effectively perceive and exploit rich temporal information in videos when responding to user queries. Therefore, they often generate descriptions of events that are temporal inconsistent or causally implausible, causing severe hallucination issues. While most prior studies have focused on spatial hallucinations (e.g. object mismatches), temporal reasoning in video understanding remains relatively underexplored. To address this issue, we propose Self-Diagnostic Contrastive Decoding (SEASON), a training-free method that adaptively enhances temporal and spatial faithfulness for each output token. It achieves this by dynamically diagnosing each token's hallucination tendency and applying adaptive contrastive decoding against its corresponding temporal and spatial negatives. Extensive experiments demonstrate that SEASON outperforms all existing training-free hallucination mitigation approaches on three hallucination examination benchmarks, while further improves VideoLLMs across four general video understanding benchmarks. The code will be released upon acceptance.
- Abstract(参考訳): Video Large Language Models (VideoLLMs) はビデオ理解において顕著な進歩を見せている。
しかし、これらのモデルは、ユーザークエリに応答するときにビデオ内の豊富な時間情報を効果的に知覚し、活用することに苦慮している。
そのため、時間的矛盾や因果関係の無い出来事の記述をしばしば生成し、幻覚の深刻な問題を引き起こす。
多くの先行研究は空間幻覚(例えば物体のミスマッチ)に焦点を当ててきたが、ビデオ理解における時間的推論はいまだにあまり研究されていない。
この問題に対処するために,各出力トークンに対する時間的・空間的忠実度を適応的に向上する訓練自由度手法であるSelf-Diagnostic Contrastive Decoding (SEASON)を提案する。
それぞれのトークンの幻覚傾向を動的に診断し、対応する時間的および空間的負に対して適応的なコントラスト的復号を適用することでこれを実現できる。
大規模な実験により、SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れており、さらに4つの一般的なビデオ理解ベンチマークにおけるビデオLLMを改善している。
コードは受理時にリリースされます。
関連論文リスト
- Learning to Decode Against Compositional Hallucination in Video Multimodal Large Language Models [44.84227796501077]
ビデオマルチモーダル大言語モデル(VLLM)における孤立幻覚と構成幻覚の両方を評価するためのベンチマークであるOmniVCHallを紹介する。
3方向キャリブレーション機構を備えたコントラストデコーディングフレームワークであるTriCDを提案する。
実験の結果,TriCDは2つの代表的なバックボーンで連続的に性能を向上し,平均精度が10%以上向上した。
論文 参考訳(メタデータ) (2026-01-31T06:50:43Z) - Mitigating Hallucinations in Video Large Language Models via Spatiotemporal-Semantic Contrastive Decoding [23.767895980891264]
本稿では,時空間・意味的コントラストデコーディングというデコーディング戦略を提案する。
この戦略は、ビデオ特徴の新しい一貫性とセマンティックアソシエーションを意図的に破壊することによって、ネガティブな特徴を構築する。
本手法は,幻覚の発生を効果的に軽減するだけでなく,一般的な映像理解と推論能力も維持する。
論文 参考訳(メタデータ) (2026-01-30T05:16:12Z) - SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse [22.663181163109176]
本稿では,ビデオ大言語モデルにおける幻覚問題に対処するための先駆的なステップであるSmartSightを提案する。
SmartSightは複数の候補応答を生成して、標準のgreedyデコードによってしばしば隠蔽される低調波出力を明らかにする。
実験の結果、SmartSightはQwen2.5-VL-7Bの幻覚をVRIPT-HALで10.59%減少させ、同時にビデオ理解と推論を強化し、ビデオMMMUのパフォーマンスを最大8.86%向上させた。
論文 参考訳(メタデータ) (2025-12-21T10:25:02Z) - Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding [103.74753205276336]
本稿では,映像幻覚の診断における知覚的,時間的,認知的レベルをカバーする階層的枠組みであるDr.Vを提案する。
Dr.Vは、ベンチマークデータセットDr.V-Benchと衛星ビデオエージェントDr.V-Agentの2つの重要なコンポーネントで構成されている。
Dr.V-Agentは、知覚的、時間的レベルできめ細かな空間的時間的接地を施し、次いで認知的レベルの推論によって幻覚を検出する。
論文 参考訳(メタデータ) (2025-09-15T12:39:19Z) - MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models [56.49314029765706]
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
論文 参考訳(メタデータ) (2025-09-10T12:34:07Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。