論文の概要: MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.06810v1
- Date: Sun, 07 Dec 2025 12:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.538901
- Title: MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning
- Title(参考訳): MMDuet2:マルチスレッド強化学習によるビデオMLLMのプロアクティブインタラクションの強化
- Authors: Yueqian Wang, Songxiang Liu, Disong Wang, Nuo Xu, Guanglu Wan, Huishuai Zhang, Dongyan Zhao,
- Abstract要約: 本稿では,プロアクティブインタラクションのための新しいテキスト・テキスト・アプローチを提案する。
我々は、SFTとRLによる2種類の対話を伴う52kビデオのデータセット上で、モデルMDDuet2を訓練する。
実験の結果,MDDuet2は既存のプロアクティブビデオMLLMベースラインよりも応答時間と品質が優れていた。
- 参考スコア(独自算出の注目度): 46.07421375983852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video multimodal large language models (Video MLLMs) have significantly enhanced video understanding and multi-modal interaction capabilities. While most existing systems operate in a turn-based manner where the model can only reply after user turns, proactively deciding when to reply during video playback presents a promising yet challenging direction for real-time applications. In this work, we propose a novel text-to-text approach to proactive interaction, where the model autonomously determines whether to respond or remain silent at each turn based on dialogue history and visual context up to current frame of an streaming video. To overcome difficulties in previous methods such as manually tuning response decision thresholds and annotating precise reply times, we introduce a multi-turn RL based training method that encourages timely and accurate responses without requiring precise response time annotations. We train our model MMDuet2 on a dataset of 52k videos with two types of dialogues via SFT and RL. Experimental results demonstrate that MMDuet2 outperforms existing proactive Video MLLM baselines in response timing and quality, achieving state-of-the-art performance on the ProactiveVideoQA benchmark.
- Abstract(参考訳): ビデオマルチモーダル大言語モデル(ビデオMLLM)の最近の進歩は、ビデオ理解とマルチモーダルインタラクション機能を大幅に強化している。
既存のシステムの多くはターンベースで動作しており、ユーザーはターンした後にしか応答できないが、ビデオ再生中にいつ応答するかを積極的に決定することは、リアルタイムアプリケーションにとって有望だが挑戦的な方向を示す。
そこで本研究では,対話履歴や視覚的コンテキストに基づいて,各ターンに応答するか否かを自律的に判断する。
応答決定閾値を手動で調整したり、正確な応答時間をアノテートするといった従来の手法の難しさを克服するため、正確な応答時間アノテーションを必要とせず、タイムリーかつ正確な応答を奨励するマルチターンRLベースのトレーニング手法を提案する。
我々は、SFTとRLによる2種類の対話を伴う52kビデオのデータセット上で、モデルMDDuet2を訓練する。
実験の結果,MDDuet2 は既存の Proactive Video MLLM ベースラインよりも応答時間と品質が優れており,Proactive VideoQA ベンチマークで最先端のパフォーマンスが得られた。
関連論文リスト
- Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。
我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Beyond Words: Multimodal LLM Knows When to Speak [25.374878759869333]
我々は、視覚、音声、テキスト間の微妙なマルチモーダル信号に依存する、短時間で反応する発話に重点を置いて、応答型のリアルタイム予測に重点を置いている。
実世界の会話ビデオから構築された新しいマルチモーダルデータセットを導入し、時間的に整列された視覚、聴覚、テキストストリームを含む。
MM-When2Speakは,視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLCMベースのモデルである。
論文 参考訳(メタデータ) (2025-05-20T17:42:34Z) - VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format [40.66959827210223]
既存の作業では、ユーザはビデオ全体とクエリを入力として使用することでビデオLLMと対話し、その後モデルが応答を生成する。
このインタラクションフォーマットは、ライブストリーミングの理解のようなシナリオにおけるVideoLLMsの適用を制限する。
本稿では,ビデオ・テキスト・デュエットインタラクション形式に焦点をあてる。
MMDuetITはビデオ・テキスト・デュエット・インタラクション・フォーマットにビデオLLMを適応させるために設計されたビデオ・テキスト・トレーニング・データセットである。
論文 参考訳(メタデータ) (2024-11-27T02:15:34Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。