論文の概要: Distorted or Fabricated? A Survey on Hallucination in Video LLMs
- arxiv url: http://arxiv.org/abs/2604.12944v1
- Date: Tue, 14 Apr 2026 16:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.56409
- Title: Distorted or Fabricated? A Survey on Hallucination in Video LLMs
- Title(参考訳): 歪んだり加工されたり : ビデオLLMにおける幻覚に関する調査
- Authors: Yiyang Huang, Yitian Zhang, Yizhou Wang, Mingyuan Zhang, Liang Shi, Huimin Zeng, Yun Fu,
- Abstract要約: 本稿では,ビデオ大言語モデル(Vid-LLM)における幻覚の包括的分析について述べる。
幻覚を動的歪みと内容形成の2つの中核タイプに分類する系統分類を導入している。
動的歪みとコンテンツ形成の根本原因を解析し,時間的表現能力の限界から生じることが多い。
- 参考スコア(独自算出の注目度): 47.26218191727747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in video-language modeling, hallucinations remain a persistent challenge in Video Large Language Models (Vid-LLMs), referring to outputs that appear plausible yet contradict the content of the input video. This survey presents a comprehensive analysis of hallucinations in Vid-LLMs and introduces a systematic taxonomy that categorizes them into two core types: dynamic distortion and content fabrication, each comprising two subtypes with representative cases. Building on this taxonomy, we review recent advances in the evaluation and mitigation of hallucinations, covering key benchmarks, metrics, and intervention strategies. We further analyze the root causes of dynamic distortion and content fabrication, which often result from limited capacity for temporal representation and insufficient visual grounding. These insights inform several promising directions for future work, including the development of motion-aware visual encoders and the integration of counterfactual learning techniques. This survey consolidates scattered progress to foster a systematic understanding of hallucinations in Vid-LLMs, laying the groundwork for building robust and reliable video-language systems. An up-to-date curated list of related works is maintained at https://github.com/hukcc/Awesome-Video-Hallucination .
- Abstract(参考訳): ビデオ言語モデリングの大幅な進歩にもかかわらず、幻覚はビデオ大言語モデル(Vid-LLMs)における永続的な課題であり、入力されたビデオの内容に矛盾するように見える出力を参照している。
本調査では,Vid-LLMの幻覚を包括的に分析し,動的歪みと内容形成の2つのコアタイプに分類する系統分類を導入した。
この分類を基盤として,幻覚の評価・緩和の最近の進歩を概観し,主要な指標,指標,介入戦略を概説する。
さらに,動的歪みとコンテンツ形成の根本原因を解析し,時間的表現能力の限界や視覚的接地不足から生じることが多い。
これらの知見は、モーション認識型視覚エンコーダの開発や、対実的学習技術の統合など、将来の作業に向けたいくつかの有望な方向性を示唆する。
この調査は、Vid-LLMにおける幻覚の体系的理解を促進するために、散在する進歩を集約し、堅牢で信頼性の高いビデオ言語システムを構築するための基礎を築いた。
関連作品の最新のキュレートリストはhttps://github.com/hukcc/Awesome-Video-Hallucination で維持されている。
関連論文リスト
- SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding [103.74753205276336]
本稿では,映像幻覚の診断における知覚的,時間的,認知的レベルをカバーする階層的枠組みであるDr.Vを提案する。
Dr.Vは、ベンチマークデータセットDr.V-Benchと衛星ビデオエージェントDr.V-Agentの2つの重要なコンポーネントで構成されている。
Dr.V-Agentは、知覚的、時間的レベルできめ細かな空間的時間的接地を施し、次いで認知的レベルの推論によって幻覚を検出する。
論文 参考訳(メタデータ) (2025-09-15T12:39:19Z) - MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models [56.49314029765706]
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
論文 参考訳(メタデータ) (2025-09-10T12:34:07Z) - Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering [83.63437999696954]
大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。
本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:12:06Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。