論文の概要: Alternating Perception-Reasoning for Hallucination-Resistant Video Understanding
- arxiv url: http://arxiv.org/abs/2511.18463v2
- Date: Tue, 25 Nov 2025 11:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.375763
- Title: Alternating Perception-Reasoning for Hallucination-Resistant Video Understanding
- Title(参考訳): 幻覚耐性ビデオ理解のための交互知覚推論
- Authors: Bowei Pu, Chuanbin Liu, Yifan Ge, Peicheng Zhou, Yiwei Sun, Zhiying Lu, Jiankang Wang, Hongtao Xie,
- Abstract要約: 我々は、ループベースのパラダイムと反幻覚報酬を統合した新しいフレームワークを導入する。
一度にビデオを記述する代わりに、各ループは正確なタイムスタンプを持つビデオセグメントを記述するためにモデルを必要とする。
幻覚のリスクに対して、Factual-Aware Evaluatorは、各知覚結果を信頼できる反幻覚報酬として評価する。
- 参考スコア(独自算出の注目度): 35.20942192333083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sufficient visual perception is the foundation of video reasoning. Nevertheless, existing Video Reasoning LLMs suffer from perception shortcuts, relying on a flawed single-step perception paradigm. This paradigm describes the video and then conducts reasoning, which runs the risk of insufficient evidence and emergent hallucinations. To address these issues, we introduce a new framework that integrates a loop-based paradigm with an anti-hallucination reward. First, to address the insufficient evidence, we introduce the Perception Loop Reasoning (PLR) paradigm. Instead of describing the video at once, each loop requires the model to describe a video segment with precise timestamps, analyze this segment, and decide the next action. Second, for the risk of hallucinations, the Factual-Aware Evaluator (FAE) evaluates each perception result as a reliable anti-hallucination reward. This reward encourages the model to provide sufficient and precise video evidence. Our FAE, which performs comparably to GPT-4o, is tuned on our AnetHallu-117K, a large-scale hallucination judgment preference dataset. Extensive experiments show that our Video-PLR achieves the state-of-the-art in both 3B and 7B parameter scales and has the best data efficiency. Our code, models, and datasets are released on: https://github.com/BoweiPu/VideoPLR.
- Abstract(参考訳): 十分な視覚知覚は、ビデオ推論の基礎である。
それでも、既存のビデオ推論LLMは、欠陥のある単一ステップの知覚パラダイムに依存して、知覚ショートカットに悩まされている。
このパラダイムはビデオを説明し、その後推論を行い、不十分な証拠と創発的な幻覚のリスクを負う。
これらの問題に対処するために、ループベースのパラダイムと反幻覚報酬を統合した新しいフレームワークを導入する。
まず、不十分な証拠に対処するために、パーセプションループ推論(PLR)パラダイムを導入する。
一度にビデオを記述する代わりに、各ループは、正確なタイムスタンプでビデオセグメントを記述し、このセグメントを分析し、次のアクションを決定する必要がある。
第二に、幻覚のリスクに対して、FAE(Factual-Aware Evaluator)は、各知覚結果を信頼できる反幻覚報酬として評価する。
この報酬はモデルに十分な正確なビデオ証拠を提供するよう促す。
GPT-4oと同等に機能するFAEは、大規模な幻覚判定選好データセットであるAnetHallu-117Kで調整される。
大規模な実験により,ビデオPLRは3Bパラメータと7Bパラメータの両スケールで最先端を実現し,データ効率が最良であることが確認された。
私たちのコード、モデル、データセットは、https://github.com/BoweiPu/VideoPLR.comでリリースされます。
関連論文リスト
- MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models [56.49314029765706]
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
論文 参考訳(メタデータ) (2025-09-10T12:34:07Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。
本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文 参考訳(メタデータ) (2025-03-25T13:12:17Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。