論文の概要: NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models
- arxiv url: http://arxiv.org/abs/2511.06475v1
- Date: Sun, 09 Nov 2025 17:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.969499
- Title: NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models
- Title(参考訳): NOAH:ビデオ大言語モデルにおける物語的先駆的幻覚と排他性のベンチマーク
- Authors: Kyuho Lee, Euntae Kim, Jinwoo Choi, Buru Chang,
- Abstract要約: ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。
多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。
我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
- 参考スコア(独自算出の注目度): 8.6767620170781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video large language models (Video LLMs) have recently achieved strong performance on tasks such as captioning, summarization, and question answering. Many models and training methods explicitly encourage continuity across events to enhance narrative coherence. While this improves fluency, it also introduces an inductive bias that prioritizes storyline consistency over strict grounding in visual evidence. We identify this bias, which we call narrative prior, as a key driver of two errors: hallucinations, where non-existent events are introduced or existing ones are misinterpreted, and omissions, where factual events are suppressed because they are misaligned with surrounding context. To systematically evaluate narrative prior-induced errors, we introduce NOAH, a large-scale benchmark that constructs composite videos by inserting clips from other sources into target videos. By varying semantic similarity and insertion position, our benchmark enables controlled and scalable analysis of narrative priors. We design one captioning task with tailored metrics and three QA tasks - Existence, Temporal, and Narrative - yielding more than 60K evaluation samples. Extensive experiments yield three key findings: (i) most Video LLMs exhibit hallucinations and omissions driven by narrative priors, (ii) the patterns of these errors vary across architectures and depend on event similarity and insertion position, and (iii) reliance on narrative priors intensifies under sampling with fewer frames, amplifying errors when event continuity is weak. We establish NOAH as the first standardized evaluation of narrative prior-induced hallucination and omission in Video LLMs, providing a foundation for developing more reliable and trustworthy models. Our benchmark and code are available at https://anonymous550520.github.io/.
- Abstract(参考訳): ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。
多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。
これは流線型を改善するが、視覚的証拠の厳密な根拠よりもストーリーラインの一貫性を優先する帰納バイアスも導入する。
我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
本研究では,他のソースからのクリップを対象ビデオに挿入して合成ビデオを構成する大規模ベンチマークであるNOAHを紹介する。
セマンティックな類似性や挿入位置の相違により、我々のベンチマークは物語の先行を制御し、スケーラブルに分析することができる。
我々は,3つのQAタスク – Existence, Temporal, Narrative – を備えた1つのキャプションタスクを設計し,60K以上の評価サンプルを得た。
大規模な実験は3つの重要な発見をもたらす。
(i)ほとんどのビデオLLMは、物語の先行によって引き起こされた幻覚や消息を示す。
(二)これらの誤りのパターンは建築によって異なり、事象の類似性及び挿入位置に依存する。
三 物語の先行性に依存して、より少ないフレームでサンプリングし、イベント連続性が弱い場合にエラーを増幅する。
我々は,より信頼性が高く信頼性の高いモデルを開発するための基盤となるビデオLLMにおいて,物語による幻覚と消極性の最初の標準化された評価としてNOAHを確立した。
ベンチマークとコードはhttps://anonymous550520.github.io/.com/で公開されている。
関連論文リスト
- ARGUS: Hallucination and Omission Evaluation in Video-LLMs [86.73977434293973]
ARGUSは、無料のビデオキャプションのパフォーマンスを測定するビデオLLMベンチマークである。
ビデオLLM出力と人間の真実のキャプションを比較することで、ARGUSは2つのメトリクスを定量化する。
論文 参考訳(メタデータ) (2025-06-09T02:42:13Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。