論文の概要: DIQ-H: Evaluating Hallucination Persistence in VLMs Under Temporal Visual Degradation
- arxiv url: http://arxiv.org/abs/2512.03992v1
- Date: Wed, 03 Dec 2025 17:22:29 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:56:16.276087
- Title: DIQ-H: Evaluating Hallucination Persistence in VLMs Under Temporal Visual Degradation
- Title(参考訳): DIQ-H:時間的視覚劣化下におけるVLMの幻覚持続性の評価
- Authors: Zexin Lin, Hawen Wan, Yebin Zhong, Xiaoqiang,
- Abstract要約: 時間列の動的視覚劣化下でのVLMロバスト性を評価するための最初のベンチマークであるDIQ-Hを紹介する。
DIQ-Hは、モーションボケ、センサノイズ、圧縮アーティファクトなどの物理ベースの汚職を適用し、幻覚の持続性、エラー回復、時間的一貫性を測定する。
拡張性のあるアノテーションを実現するために,疑似地下構造を生成するUncertainty-Guided Iterative Refinement (UIR)を提案する。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License:
- Abstract: Vision-Language Models (VLMs) deployed in safety-critical applications such as autonomous driving must handle continuous visual streams under imperfect conditions. However, existing benchmarks focus on static, high-quality images and ignore temporal degradation and error propagation, which are critical failure modes where transient visual corruption induces hallucinations that persist across subsequent frames. We introduce DIQ-H, the first benchmark for evaluating VLM robustness under dynamic visual degradation in temporal sequences. DIQ-H applies physics-based corruptions including motion blur, sensor noise, and compression artifacts, and measures hallucination persistence, error recovery, and temporal consistency through multi-turn question-answering tasks. To enable scalable annotation, we propose Uncertainty-Guided Iterative Refinement (UIR), which generates reliable pseudo-ground-truth using lightweight VLMs with uncertainty filtering, achieving a 15.3 percent accuracy improvement. Experiments on 16 state-of-the-art VLMs reveal substantial robustness gaps: even advanced models such as GPT-4o achieve only a 78.5 percent recovery rate, while open-source models struggle with temporal consistency at less than 60 percent. DIQ-H provides a comprehensive platform for evaluating VLM reliability in real-world deployments.
- Abstract(参考訳): 自律運転のような安全クリティカルなアプリケーションに配備される視覚言語モデル(VLM)は、不完全な条件下で連続的な視覚ストリームを処理する必要がある。
しかし、既存のベンチマークでは静的で高品質な画像に重点を置いており、一時的な劣化やエラーの伝播を無視している。
時間列の動的視覚劣化下でのVLMロバスト性を評価するための最初のベンチマークであるDIQ-Hを紹介する。
DIQ-Hは、モーションボケ、センサノイズ、圧縮アーティファクトなどの物理ベースの汚職を適用し、マルチターン質問応答タスクによる幻覚の持続性、エラー回復、時間的一貫性を測定する。
拡張性のあるアノテーションを実現するために,不確実性誘導型反復精細化(UIR)を提案する。
GPT-4oのような先進モデルでさえ78.5%の回復率しか達成していないのに対し、オープンソースモデルは60%未満の時間的一貫性に苦戦している。
DIQ-Hは、現実世界のデプロイメントにおけるVLMの信頼性を評価するための総合的なプラットフォームを提供する。
関連論文リスト
- On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations [52.1029745126386]
視覚-言語-アクション(VLA)モデルでは、現実世界の摂動に対する堅牢性は、デプロイに不可欠である。
本稿では,VLA入力と出力の摂動に対するロバストVLAを提案する。
LIBEROの実験では、ロバストVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%のベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-26T14:42:23Z) - DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models [45.126261544696185]
視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
論文 参考訳(メタデータ) (2025-06-04T13:26:33Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - Does Acceleration Cause Hidden Instability in Vision Language Models? Uncovering Instance-Level Divergence Through a Large-Scale Empirical Study [44.170933007736984]
VLM(Vision-Language Models)は、実用的展開において強力だが計算集約的な手法である。
現在のアクセラレーション評価は主に、重要な問題を見越して、パフォーマンスの最小限のパフォーマンス劣化を目標としています。
これは、AIベースの疾患診断のように、特定の既知の状況に対して常に正しい回答が最重要である、安定性中心の産業アプリケーションにとって不可欠である。
論文 参考訳(メタデータ) (2025-03-09T22:16:48Z) - Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment [63.811519474030234]
本稿では,フレームの時間的矛盾を定量化するための知覚指向アプローチを提案する。
人間の視覚システムに触発され,不整合誘導時間モジュールを開発した。
我々の手法は最先端のVQA手法よりも優れています。
論文 参考訳(メタデータ) (2024-12-25T15:43:41Z) - DifFIQA: Face Image Quality Assessment Using Denoising Diffusion
Probabilistic Models [1.217503190366097]
顔画像品質評価(FIQA)技術は、これらの性能劣化を軽減することを目的としている。
拡散確率モデル(DDPM)に基づく強力な新しいFIQA手法DifFIQAを提案する。
拡散に基づく摂動は計算コストが高いため、DifFIQA(R)と呼ばれる回帰ベースの品質予測器にDifFIQAで符号化された知識を蒸留する。
論文 参考訳(メタデータ) (2023-05-09T21:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。