論文の概要: Mitigating Hallucinations in Video Large Language Models via Spatiotemporal-Semantic Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2601.22574v1
- Date: Fri, 30 Jan 2026 05:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.237815
- Title: Mitigating Hallucinations in Video Large Language Models via Spatiotemporal-Semantic Contrastive Decoding
- Title(参考訳): 時空間的コントラストデコーディングによるビデオ大言語モデルにおける幻覚の緩和
- Authors: Yuansheng Gao, Jinman Zhao, Tong Zhang, Xingguo Xu, Han Bao, Zonghui Wang, Wenzhi Chen,
- Abstract要約: 本稿では,時空間・意味的コントラストデコーディングというデコーディング戦略を提案する。
この戦略は、ビデオ特徴の新しい一貫性とセマンティックアソシエーションを意図的に破壊することによって、ネガティブな特徴を構築する。
本手法は,幻覚の発生を効果的に軽減するだけでなく,一般的な映像理解と推論能力も維持する。
- 参考スコア(独自算出の注目度): 23.767895980891264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Video Large Language Models perform remarkably well across tasks such as video understanding, question answering, and reasoning, they still suffer from the problem of hallucination, which refers to generating outputs that are inconsistent with explicit video content or factual evidence. However, existing decoding methods for mitigating video hallucinations, while considering the spatiotemporal characteristics of videos, mostly rely on heuristic designs. As a result, they fail to precisely capture the root causes of hallucinations and their fine-grained temporal and semantic correlations, leading to limited robustness and generalization in complex scenarios. To more effectively mitigate video hallucinations, we propose a novel decoding strategy termed Spatiotemporal-Semantic Contrastive Decoding. This strategy constructs negative features by deliberately disrupting the spatiotemporal consistency and semantic associations of video features, and suppresses video hallucinations through contrastive decoding against the original video features during inference. Extensive experiments demonstrate that our method not only effectively mitigates the occurrence of hallucinations, but also preserves the general video understanding and reasoning capabilities of the model.
- Abstract(参考訳): ビデオ大言語モデルは、ビデオ理解、質問応答、推論などのタスクで著しくうまく機能するが、明確なビデオ内容や事実的証拠と矛盾する出力を生成する幻覚の問題に苦しむ。
しかし、ビデオ幻覚を緩和する既存の復号法は、ビデオの時空間的特性を考慮しながら、主にヒューリスティックな設計に依存している。
その結果、幻覚の根本原因とその微粒な時間的・意味的相関を正確に捉えられず、複雑なシナリオでは頑健さと一般化が制限される。
ビデオ幻覚をより効果的に緩和するために,時空間・意味的コントラスト復号法と呼ばれる新しい復号法を提案する。
この戦略は、ビデオ特徴の時空間的一貫性と意味的関連を意図的に破壊することにより否定的な特徴を構築し、推論中に元の映像特徴に対して対照的な復号をすることでビデオ幻覚を抑制する。
大規模な実験により,本手法は幻覚の発生を効果的に軽減するだけでなく,一般的な映像理解能力や推論能力を保っていることが示された。
関連論文リスト
- SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。