論文の概要: Mitigating Hallucinations in Video Large Language Models via Spatiotemporal-Semantic Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2601.22574v1
- Date: Fri, 30 Jan 2026 05:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.237815
- Title: Mitigating Hallucinations in Video Large Language Models via Spatiotemporal-Semantic Contrastive Decoding
- Title(参考訳): 時空間的コントラストデコーディングによるビデオ大言語モデルにおける幻覚の緩和
- Authors: Yuansheng Gao, Jinman Zhao, Tong Zhang, Xingguo Xu, Han Bao, Zonghui Wang, Wenzhi Chen,
- Abstract要約: 本稿では,時空間・意味的コントラストデコーディングというデコーディング戦略を提案する。
この戦略は、ビデオ特徴の新しい一貫性とセマンティックアソシエーションを意図的に破壊することによって、ネガティブな特徴を構築する。
本手法は,幻覚の発生を効果的に軽減するだけでなく,一般的な映像理解と推論能力も維持する。
- 参考スコア(独自算出の注目度): 23.767895980891264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Video Large Language Models perform remarkably well across tasks such as video understanding, question answering, and reasoning, they still suffer from the problem of hallucination, which refers to generating outputs that are inconsistent with explicit video content or factual evidence. However, existing decoding methods for mitigating video hallucinations, while considering the spatiotemporal characteristics of videos, mostly rely on heuristic designs. As a result, they fail to precisely capture the root causes of hallucinations and their fine-grained temporal and semantic correlations, leading to limited robustness and generalization in complex scenarios. To more effectively mitigate video hallucinations, we propose a novel decoding strategy termed Spatiotemporal-Semantic Contrastive Decoding. This strategy constructs negative features by deliberately disrupting the spatiotemporal consistency and semantic associations of video features, and suppresses video hallucinations through contrastive decoding against the original video features during inference. Extensive experiments demonstrate that our method not only effectively mitigates the occurrence of hallucinations, but also preserves the general video understanding and reasoning capabilities of the model.
- Abstract(参考訳): ビデオ大言語モデルは、ビデオ理解、質問応答、推論などのタスクで著しくうまく機能するが、明確なビデオ内容や事実的証拠と矛盾する出力を生成する幻覚の問題に苦しむ。
しかし、ビデオ幻覚を緩和する既存の復号法は、ビデオの時空間的特性を考慮しながら、主にヒューリスティックな設計に依存している。
その結果、幻覚の根本原因とその微粒な時間的・意味的相関を正確に捉えられず、複雑なシナリオでは頑健さと一般化が制限される。
ビデオ幻覚をより効果的に緩和するために,時空間・意味的コントラスト復号法と呼ばれる新しい復号法を提案する。
この戦略は、ビデオ特徴の時空間的一貫性と意味的関連を意図的に破壊することにより否定的な特徴を構築し、推論中に元の映像特徴に対して対照的な復号をすることでビデオ幻覚を抑制する。
大規模な実験により,本手法は幻覚の発生を効果的に軽減するだけでなく,一般的な映像理解能力や推論能力を保っていることが示された。
関連論文リスト
- Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance [31.7541034166056]
LVLM(Large Vision-Language Models)は、画像テキスト入力から効果的に推論し、様々なマルチモーダルタスクでうまく機能する。
彼らは言語の先行性に影響され、しばしば幻覚を生じさせる。
この問題に対処するためにResidual Decoding (ResDec)を提案する。
論文 参考訳(メタデータ) (2026-02-01T06:12:05Z) - CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models [66.56549019393042]
ビデオ言語モデル(VLM)は、強いマルチモーダル理解を実現するが、特に行動や時間秩序を推論する場合、幻覚を起こす傾向にある。
本稿では,シーンコンテキストを保ちながら,アクションや時間構造が異なる映像を合成する,対物映像生成のためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T10:03:07Z) - SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - Review of Hallucination Understanding in Large Language and Vision Models [65.29139004945712]
本稿では,多様なアプリケーションにまたがる画像とテキストの幻覚を特徴付けるフレームワークを提案する。
我々の調査によると、幻覚はデータ分布や遺伝バイアスの予測可能なパターンから生じることが多い。
この調査は、現実世界の生成AIシステムにおける幻覚に対するより堅牢で効果的なソリューションを開発する基盤を提供する。
論文 参考訳(メタデータ) (2025-09-26T09:23:08Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。