論文の概要: Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
- arxiv url: http://arxiv.org/abs/2512.24271v1
- Date: Tue, 30 Dec 2025 14:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.406039
- Title: Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
- Title(参考訳): タミング・幻覚: MLLMの映像理解を非現実的ビデオ生成で強化する
- Authors: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang,
- Abstract要約: MLLM(Multimodal Large Language Models)はビデオ理解において顕著な進歩を遂げている。
それらは重大な脆弱性に悩まされる: 言語先行への過度な依存であり、視覚的に根拠のない幻覚を引き起こす可能性がある。
制御可能な拡散型ビデオ編集を利用する新しいデータ合成フレームワークであるDualityForgeを紹介する。
- 参考スコア(独自算出の注目度): 37.975475053907545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise $\ell_1$ advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はビデオ理解において顕著な進歩を遂げている。
しかし、それらは致命的な脆弱性に悩まされる:言語の先行性に対する過度な信頼、特に常識を欠く反現実的なビデオを処理する際には、視覚的無地幻覚につながる可能性がある。
この制限は、テキストとビデオ間の本質的なデータ不均衡から生じるものであり、反事実データの収集と注釈付けにかなりのコストがかかるため、対処が難しい。
これを解決するために,DualityForgeを紹介した。DualityForgeは,制御可能な拡散ベースのビデオ編集を利用して,現実世界の映像を現実のシナリオに変換する,新しいデファクトデータ合成フレームワークである。
構造化されたコンテキスト情報をビデオ編集およびQA生成プロセスに埋め込むことで、コントラストトレーニングのためのオリジナル編集されたビデオペアとともに高品質なQAペアを自動生成する。
そこで我々は,MLLM幻覚の低減を目的とした大規模ビデオデータセットであるDualityVidQAを開発した。
さらに,2段階のSFT-RLトレーニングシステムであるDuality-Normalized Advantage Training (DNA-Train)を提案する。
DualityVidQA-Testの実験により,本手法は対実ビデオのモデル幻覚を大幅に低減し,Qwen2.5-VL-7Bベースラインよりも24.0%向上した。
さらに,本手法は幻覚と汎用ベンチマークの両方において有意な向上を実現し,強力な一般化能力を示す。
私たちはデータセットとコードをオープンソースにします。
関連論文リスト
- Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale [70.23466957404891]
多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T20:50:54Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.64831081829936]
Reinforcement fine-tuning (RFT) は人間レベルの推論能力を達成する上で非常に有望である。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークにおいて,ビデオRFTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - ResNetVLLM-2: Addressing ResNetVLLM's Multi-Modal Hallucinations [0.40964539027092917]
大規模言語モデル (LLM) は自然言語処理 (NLP) のタスクを変換しているが、幻覚に悩まされ、真に正しくないコンテンツを生成する。
この問題は Video-Language Models (VideoLLMs) にも及んでいる。
本稿では,(1) 修正されたLynxモデルを用いて生成したキャプションと地味なビデオ参照のセマンティックアライメントを評価する信頼度検出戦略,(2) 推論中に動的に構築されたアドホックな知識ベースを持つRetrieval-Augmented Generation (RAG) を用いた幻覚緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-04-20T00:10:44Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。