論文の概要: Learning to Decode Against Compositional Hallucination in Video Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00559v1
- Date: Sat, 31 Jan 2026 06:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.255737
- Title: Learning to Decode Against Compositional Hallucination in Video Multimodal Large Language Models
- Title(参考訳): ビデオマルチモーダル大言語モデルにおける構成的幻覚に対するデコード学習
- Authors: Wenbin Xing, Quanxing Zha, Lizheng Zu, Mengran Li, Ming Li, Junchi Yan,
- Abstract要約: ビデオマルチモーダル大言語モデル(VLLM)における孤立幻覚と構成幻覚の両方を評価するためのベンチマークであるOmniVCHallを紹介する。
3方向キャリブレーション機構を備えたコントラストデコーディングフレームワークであるTriCDを提案する。
実験の結果,TriCDは2つの代表的なバックボーンで連続的に性能を向上し,平均精度が10%以上向上した。
- 参考スコア(独自算出の注目度): 44.84227796501077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research on video hallucination mitigation primarily focuses on isolated error types, leaving compositional hallucinations, arising from incorrect reasoning over multiple interacting spatial and temporal factors largely underexplored. We introduce OmniVCHall, a benchmark designed to systematically evaluate both isolated and compositional hallucinations in video multimodal large language models (VLLMs). OmniVCHall spans diverse video domains, introduces a novel camera-based hallucination type, and defines a fine-grained taxonomy, together with adversarial answer options (e.g., "All are correct" and "None of the above") to prevent shortcut reasoning. The evaluations of 39 representative VLLMs reveal that even advanced models (e.g., Qwen3-VL and GPT-5) exhibit substantial performance degradation. We propose TriCD, a contrastive decoding framework with a triple-pathway calibration mechanism. An adaptive perturbation controller dynamically selects distracting operations to construct negative video variants, while a saliency-guided enhancement module adaptively reinforces grounded token-wise visual evidences. These components are optimized via reinforcement learning to encourage precise decision-making under compositional hallucination settings. Experimental results show that TriCD consistently improves performance across two representative backbones, achieving an average accuracy improvement of over 10%. The data and code can be find at https://github.com/BMRETURN/OmniVCHall.
- Abstract(参考訳): ビデオ幻覚の緩和に関する現在の研究は、主に孤立したエラータイプに焦点を当てており、複数の相互作用する空間的および時間的要因に対する誤った推論から生じる構成幻覚を残している。
本稿では,ビデオマルチモーダル大言語モデル(VLLM)における孤立幻覚と構成幻覚の両方を系統的に評価するベンチマークであるOmniVCHallを紹介する。
OmniVCHallは多様なビデオ領域にまたがり、新しいカメラベースの幻覚型を導入し、敵の答えオプション(例えば、"All are correct" や "None of the above" など)とともにきめ細かな分類を定義し、ショートカット推論を防ぐ。
39個の代表VLLMの評価結果から, 高度なモデル(Qwen3-VL, GPT-5)でさえ, 大幅な性能劣化を示した。
3方向キャリブレーション機構を備えたコントラストデコーディングフレームワークであるTriCDを提案する。
適応摂動制御装置は、陰性なビデオ変種を構築するための気を散らす操作を動的に選択し、サリエンシ誘導強化モジュールは、接地されたトークンワイドの視覚的エビデンスを適応的に補強する。
これらのコンポーネントは強化学習によって最適化され、構成幻覚設定下での正確な意思決定を促進する。
実験の結果,TriCDは2つの代表的なバックボーンで連続的に性能を向上し,平均精度が10%以上向上した。
データとコードはhttps://github.com/BMRETURN/OmniVCHall.comで確認できる。
関連論文リスト
- SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models [23.846371966667927]
マルチモーダル大言語モデル(MLLM)は、明白な視覚的または事実的証拠と一致しない出力を生成する。
DCD(Decoupling Contrastive Decoding)という新しいフレームワークを提案する。
DCDは選好データセットにおける正と負のサンプルの学習を分離し、訓練はMLLM内で正と負のイメージ投影を分離する。
論文 参考訳(メタデータ) (2025-04-09T02:59:18Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。