論文の概要: CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models
- arxiv url: http://arxiv.org/abs/2601.04778v1
- Date: Thu, 08 Jan 2026 10:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.146629
- Title: CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models
- Title(参考訳): CounterVid:ビデオ言語モデルにおける行動と時間的幻覚を緩和するための対実ビデオ生成
- Authors: Tobia Poppi, Burak Uzkent, Amanmeet Garg, Lucas Porto, Garin Kessler, Yezhou Yang, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, Florian Schiffers,
- Abstract要約: ビデオ言語モデル(VLM)は、強いマルチモーダル理解を実現するが、特に行動や時間秩序を推論する場合、幻覚を起こす傾向にある。
本稿では,シーンコンテキストを保ちながら,アクションや時間構造が異なる映像を合成する,対物映像生成のためのスケーラブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.56549019393042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-language models (VLMs) achieve strong multimodal understanding but remain prone to hallucinations, especially when reasoning about actions and temporal order. Existing mitigation strategies, such as textual filtering or random video perturbations, often fail to address the root cause: over-reliance on language priors rather than fine-grained visual dynamics. We propose a scalable framework for counterfactual video generation that synthesizes videos differing only in actions or temporal structure while preserving scene context. Our pipeline combines multimodal LLMs for action proposal and editing guidance with diffusion-based image and video models to generate semantic hard negatives at scale. Using this framework, we build CounterVid, a synthetic dataset of ~26k preference pairs targeting action recognition and temporal reasoning. We further introduce MixDPO, a unified Direct Preference Optimization approach that jointly leverages textual and visual preferences. Fine-tuning Qwen2.5-VL with MixDPO yields consistent improvements, notably in temporal ordering, and transfers effectively to standard video hallucination benchmarks. Code and models will be made publicly available.
- Abstract(参考訳): ビデオ言語モデル(VLM)は、強いマルチモーダル理解を実現するが、特に行動や時間秩序を推論する場合、幻覚を起こす傾向にある。
テキストフィルタリングやランダムなビデオ摂動のような既存の緩和戦略は、しばしば根本原因に対処できない。
本稿では,シーンコンテキストを保ちながら,アクションや時間構造が異なる映像を合成する,対物映像生成のためのスケーラブルなフレームワークを提案する。
本パイプラインでは,マルチモーダルLLMの動作提案と,拡散に基づく画像と映像モデルとの編集指導を組み合わせることで,大規模に意味的ハードネガティブを生成する。
このフレームワークを用いて、アクション認識と時間的推論をターゲットとした、約26kの選好ペアの合成データセットであるCounterVidを構築する。
さらに,テキストと視覚的嗜好を併用した直接選好最適化手法であるMixDPOを導入する。
微調整されたQwen2.5-VLとMixDPOは、特に時間的順序付けにおいて一貫した改善をもたらし、標準のビデオ幻覚ベンチマークに効果的に転送する。
コードとモデルは公開されます。
関連論文リスト
- Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models [10.26681509535044]
本稿では,ビデオシーンセグメンテーションのための視覚言語モデル(VLM)フレームワークであるScene-VLMを紹介する。
Scene-VLMは、フレーム、転写、オプションメタデータを含む視覚的およびテキスト的キューを共同で処理し、マルチモーダル推論を可能にする。
提案手法は,標準的なシーンセグメンテーションベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-25T20:31:36Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models [9.896951371033229]
VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。
そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。
VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
論文 参考訳(メタデータ) (2025-11-24T06:57:26Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。