論文の概要: INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs
- arxiv url: http://arxiv.org/abs/2603.11481v1
- Date: Thu, 12 Mar 2026 03:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.836145
- Title: INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs
- Title(参考訳): INFACT:ビデオLLMにおけるファクトフルネスとファクチュアリティ幻覚の診断基準
- Authors: Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen,
- Abstract要約: ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚
textscINFACTは、4つのモードでモデルを評価する。
14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
- 参考スコア(独自算出の注目度): 69.11382230669491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress, Video Large Language Models (Video-LLMs) remain unreliable due to hallucinations, which are outputs that contradict either video evidence (faithfulness) or verifiable world knowledge (factuality). Existing benchmarks provide limited coverage of factuality hallucinations and predominantly evaluate models only in clean settings. We introduce \textsc{INFACT}, a diagnostic benchmark comprising 9{,}800 QA instances with fine-grained taxonomies for faithfulness and factuality, spanning real and synthetic videos. \textsc{INFACT} evaluates models in four modes: Base (clean), Visual Degradation, Evidence Corruption, and Temporal Intervention for order-sensitive items. Reliability under induced modes is quantified using Resist Rate (RR) and Temporal Sensitivity Score (TSS). Experiments on 14 representative Video-LLMs reveal that higher Base-mode accuracy does not reliably translate to higher reliability in the induced modes, with evidence corruption reducing stability and temporal intervention yielding the largest degradation. Notably, many open-source baselines exhibit near-zero TSS on factuality, indicating pronounced temporal inertia on order-sensitive questions.
- Abstract(参考訳): 急速な進歩にもかかわらず、ビデオ大言語モデル (Video Large Language Models, Video-LLMs) は、ビデオ証拠(忠実さ)と検証可能な世界知識(事実性)のどちらかに矛盾する出力である幻覚のため、信頼できないままである。
既存のベンチマークは、事実の幻覚を限定的にカバーし、大部分はクリーンな設定でのみモデルを評価する。
そこで本研究では,9{,}800のQAインスタンスと,忠実度と事実性に関する微粒な分類法を用いて,実ビデオと合成ビデオにまたがる診断ベンチマークである「textsc{INFACT}」を紹介した。
Base (clean)、Visual Degradation、Evidence Corruption、Temporal Interventionの4つのモードでモデルを評価する。
誘導モード下での信頼性は、抵抗率(RR)と時間感度スコア(TSS)を用いて定量化する。
14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが示され、その証拠は安定性を低下させ、時間的介入が最大の劣化をもたらす。
特に、多くのオープンソースベースラインは、事実性にほぼゼロのTSSを示し、順序に敏感な質問に対して時間的慣性を示す。
関連論文リスト
- DIQ-H: Evaluating Hallucination Persistence in VLMs Under Temporal Visual Degradation [0.7874708385247353]
時間列の動的視覚劣化下でのVLMロバスト性を評価するための最初のベンチマークであるDIQ-Hを紹介する。
DIQ-Hは、モーションボケ、センサノイズ、圧縮アーティファクトなどの物理ベースの汚職を適用し、幻覚の持続性、エラー回復、時間的一貫性を測定する。
拡張性のあるアノテーションを実現するために,疑似地下構造を生成するUncertainty-Guided Iterative Refinement (UIR)を提案する。
論文 参考訳(メタデータ) (2025-12-03T17:22:29Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。