論文の概要: Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
- arxiv url: http://arxiv.org/abs/2509.11866v1
- Date: Mon, 15 Sep 2025 12:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.284089
- Title: Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
- Title(参考訳): Dr.V: 微粒な空間的時間的接地によるビデオ幻覚の診断のための階層的知覚・時間的認知フレームワーク
- Authors: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu,
- Abstract要約: 本稿では,映像幻覚の診断における知覚的,時間的,認知的レベルをカバーする階層的枠組みであるDr.Vを提案する。
Dr.Vは、ベンチマークデータセットDr.V-Benchと衛星ビデオエージェントDr.V-Agentの2つの重要なコンポーネントで構成されている。
Dr.V-Agentは、知覚的、時間的レベルできめ細かな空間的時間的接地を施し、次いで認知的レベルの推論によって幻覚を検出する。
- 参考スコア(独自算出の注目度): 103.74753205276336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large video models (LVMs) have significantly enhance video understanding. However, these models continue to suffer from hallucinations, producing content that conflicts with input videos. To address this issue, we propose Dr.V, a hierarchical framework covering perceptive, temporal, and cognitive levels to diagnose video hallucination by fine-grained spatial-temporal grounding. Dr.V comprises of two key components: a benchmark dataset Dr.V-Bench and a satellite video agent Dr.V-Agent. Dr.V-Bench includes 10k instances drawn from 4,974 videos spanning diverse tasks, each enriched with detailed spatial-temporal annotation. Dr.V-Agent detects hallucinations in LVMs by systematically applying fine-grained spatial-temporal grounding at the perceptive and temporal levels, followed by cognitive level reasoning. This step-by-step pipeline mirrors human-like video comprehension and effectively identifies hallucinations. Extensive experiments demonstrate that Dr.V-Agent is effective in diagnosing hallucination while enhancing interpretability and reliability, offering a practical blueprint for robust video understanding in real-world scenarios. All our data and code are available at https://github.com/Eurekaleo/Dr.V.
- Abstract(参考訳): 大規模ビデオモデル(LVM)の最近の進歩は,映像理解を著しく向上させてきた。
しかし、これらのモデルは幻覚に悩まされ続けており、入力ビデオと矛盾するコンテンツを生み出している。
この問題に対処するため、我々は、空間的時間的接地によるビデオ幻覚の診断のための知覚的、時間的、認知的レベルをカバーする階層的枠組みであるDr.Vを提案する。
Dr.Vは、ベンチマークデータセットDr.V-Benchと衛星ビデオエージェントDr.V-Agentの2つの重要なコンポーネントで構成されている。
Dr.V-Benchには、様々なタスクにまたがる4,974本の動画から引き出された10kのインスタンスが含まれており、それぞれに詳細な時空間アノテーションが備わっている。
Dr.V-Agentは知覚的、時間的レベルできめ細かな時空間グラウンドを体系的に適用し、認知的レベルの推論によってLVMの幻覚を検出する。
このステップバイステップパイプラインは、人間のようなビデオ理解をミラーし、幻覚を効果的に識別する。
広範囲にわたる実験により、Dr.V-Agentは、解釈可能性と信頼性を高めながら幻覚の診断に効果があることが示され、現実のシナリオにおける堅牢なビデオ理解のための実用的な青写真を提供する。
私たちのデータとコードは、https://github.com/Eurekaleo/Dr.V.で利用可能です。
関連論文リスト
- MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models [56.49314029765706]
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
論文 参考訳(メタデータ) (2025-09-10T12:34:07Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
大型幻覚言語モデル(VLLM)は幻覚の傾向が広く認められている。
時間力学における映像に基づく幻覚の評価に特化して設計されたベンチマークであるVidHalを紹介する。
ベンチマークの明確な特徴は、各ビデオに関連する様々なレベルの幻覚を表すキャプションを慎重に作成することにある。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。