論文の概要: VideoHEDGE: Entropy-Based Hallucination Detection for Video-VLMs via Semantic Clustering and Spatiotemporal Perturbations
- arxiv url: http://arxiv.org/abs/2601.08557v1
- Date: Tue, 13 Jan 2026 13:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.218783
- Title: VideoHEDGE: Entropy-Based Hallucination Detection for Video-VLMs via Semantic Clustering and Spatiotemporal Perturbations
- Title(参考訳): VideoHedGE:セマンティッククラスタリングと時空間摂動によるビデオVLMのエントロピーに基づく幻覚検出
- Authors: Sushant Gautam, Cise Midoglu, Vajira Thambawita, Michael A. Riegler, Pål Halvorsen,
- Abstract要約: ビデオ対応視覚モデル (VideoVLMs) の幻覚は、今も頻繁かつ高信頼である。
質問応答における幻覚検出のためのモジュラーフレームワークであるVideoHedGEを紹介する。
- 参考スコア(独自算出の注目度): 4.509454543418357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in video-capable vision-language models (Video-VLMs) remain frequent and high-confidence, while existing uncertainty metrics often fail to align with correctness. We introduce VideoHEDGE, a modular framework for hallucination detection in video question answering that extends entropy-based reliability estimation from images to temporally structured inputs. Given a video-question pair, VideoHEDGE draws a baseline answer and multiple high-temperature generations from both clean clips and photometrically and spatiotemporally perturbed variants, then clusters the resulting textual outputs into semantic hypotheses using either Natural Language Inference (NLI)-based or embedding-based methods. Cluster-level probability masses yield three reliability scores: Semantic Entropy (SE), RadFlag, and Vision-Amplified Semantic Entropy (VASE). We evaluate VideoHEDGE on the SoccerChat benchmark using an LLM-as-a-judge to obtain binary hallucination labels. Across three 7B Video-VLMs (Qwen2-VL, Qwen2.5-VL, and a SoccerChat-finetuned model), VASE consistently achieves the highest ROC-AUC, especially at larger distortion budgets, while SE and RadFlag often operate near chance. We further show that embedding-based clustering matches NLI-based clustering in detection performance at substantially lower computational cost, and that domain fine-tuning reduces hallucination frequency but yields only modest improvements in calibration. The hedge-bench PyPI library enables reproducible and extensible benchmarking, with full code and experimental resources available at https://github.com/Simula/HEDGE#videohedge .
- Abstract(参考訳): ビデオ対応の視覚言語モデル(ビデオ-VLM)の幻覚は頻繁で信頼性が高いままであるが、既存の不確実性指標は正確性に一致しないことが多い。
ビデオ質問応答における幻覚検出のためのモジュラーフレームワークであるVideoHedGEを導入し,エントロピーに基づく画像からの信頼度推定を時間的に構造化した入力に拡張する。
ビデオクエストペアが与えられた後、VideoHEDGEはクリーンクリップと光度と時空間的な変動の両方からベースライン応答と複数の高温世代を抽出し、結果のテキスト出力を自然言語推論(NLI)または埋め込みベースの手法を用いて意味仮説に集約する。
クラスタレベルの確率質量は、セマンティックエントロピー(SE)、ラドフラグ(RadFlag)、ビジョン増幅セマンティックエントロピー(VASE)の3つの信頼性スコアを得る。
LLM-as-a-judge を用いて SoccerChat ベンチマークで VideoHEDGE を評価し,バイナリ幻覚ラベルを得る。
3基の7BビデオVLM(Qwen2-VL、Qwen2.5-VL、サッカーチャット精細化モデル)の中で、VASEは最も高いROC-AUC、特に大きな歪み予算で一貫して達成している。
さらに, 組込みクラスタリングは検出性能においてNLIベースのクラスタリングと大幅に低い計算コストで一致し, ドメインファインチューニングは幻覚周波数を低減させるが, キャリブレーションの微妙な改善しか得られないことを示す。
完全なコードと実験リソースがhttps://github.com/Simula/HEDGE#videohedge.comで公開されている。
関連論文リスト
- CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models [66.56549019393042]
ビデオ言語モデル(VLM)は、強いマルチモーダル理解を実現するが、特に行動や時間秩序を推論する場合、幻覚を起こす傾向にある。
本稿では,シーンコンテキストを保ちながら,アクションや時間構造が異なる映像を合成する,対物映像生成のためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T10:03:07Z) - TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - HEDGE: Hallucination Estimation via Dense Geometric Entropy for VQA with Vision-Language Models [4.099133096025821]
視覚言語モデル(VLM)は、オープンエンドの視覚的質問応答を可能にするが、幻覚に苦しむ傾向にある。
我々は、制御された視覚摂動、セマンティッククラスタリング、堅牢な不確実性メトリクスを組み合わせた幻覚検出のための統合フレームワークであるHEDGEを提案する。
論文 参考訳(メタデータ) (2025-11-16T17:16:31Z) - DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection [8.294763803639391]
ビデオ異常検出(VAD)は、監視と公衆の安全のために重要である。
既存のベンチマークはフレームレベルかビデオレベルのタスクに限られている。
本研究は、フルビデオカバレッジを維持しながら、異常度セグメントを優先するソフトマックスベースのフレーム割り当て戦略を導入する。
論文 参考訳(メタデータ) (2025-09-15T05:48:22Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。