論文の概要: VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking
- arxiv url: http://arxiv.org/abs/2506.01725v1
- Date: Mon, 02 Jun 2025 14:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.491441
- Title: VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking
- Title(参考訳): VideoCap-R1:構造化思考によるビデオキャプションのためのMLLMの強化
- Authors: Desen Meng, Rui Huang, Zhilin Dai, Xinhao Li, Yifan Xu, Jun Zhang, Zhenpeng Huang, Meng Zhang, Lingshu Zhang, Yi Liu, Limin Wang,
- Abstract要約: 本稿では,ビデオMLLMのためのGRPOベースのRLポストトレーニングについて,初めて体系的な研究を行った。
我々は、まず、ビデオの主題を分析する構造化思考を実行するために、VideoCap-R1を開発した。
実験によると、VideoCap-R1はQwen2VL-7Bベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 24.516849841624484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advances in reinforcement learning have significantly enhanced reasoning capabilities in large language models (LLMs), these techniques remain underexplored in multi-modal LLMs for video captioning. This paper presents the first systematic investigation of GRPO-based RL post-training for video MLLMs, with the goal of enhancing video MLLMs' capability of describing actions in videos. Specifically, we develop the VideoCap-R1, which is prompted to first perform structured thinking that analyzes video subjects with their attributes and actions before generating complete captions, supported by two specialized reward mechanisms: a LLM-free think scorer evaluating the structured thinking quality and a LLM-assisted caption scorer assessing the output quality. The RL training framework effectively establishes the connection between structured reasoning and comprehensive description generation, enabling the model to produce captions with more accurate actions. Our experiments demonstrate that VideoCap-R1 achieves substantial improvements over the Qwen2VL-7B baseline using limited samples (1.5k) across multiple video caption benchmarks (DREAM1K: +4.4 event F1, VDC: +4.2 Acc, CAREBENCH: +3.1 action F1, +6.9 object F1) while consistently outperforming the SFT-trained counterparts, confirming GRPO's superiority in enhancing MLLMs' captioning capabilities.
- Abstract(参考訳): 近年の強化学習の進歩は大規模言語モデル(LLM)における推論能力を大幅に向上させたが、ビデオキャプションのためのマルチモーダルLLMではこれらの手法が未探索のままである。
本稿では,ビデオMLLMの動作記述能力の向上を目的として,ビデオMLLMのためのGRPOに基づくRLポストトレーニングを初めて体系的に検討した。
具体的には,まず,ビデオ被験者の属性や動作を分析してキャプションを生成する構造化思考を行うためのビデオCap-R1を開発し,その評価方法として,構造化思考品質を評価するLLMフリーシンクスコアラと,その出力品質を評価するLLMアシストアセンションスコアラの2つを特化して支援する。
RLトレーニングフレームワークは、構造化推論と包括的記述生成の接続を効果的に確立し、モデルがより正確なアクションでキャプションを生成することを可能にする。
我々の実験は、ビデオCap-R1が、複数のビデオキャプションベンチマーク(DREAM1K: +4.4 Event F1, VDC: +4.2 Acc, CAREBENCH: +3.1 action F1, +6.9 object F1)で、Qwen2VL-7Bベースラインよりも大幅に改善されていることを実証した。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning [42.316341452766075]
本稿では,RFT(Reinforcement Fine-temporalning)による映像知覚の向上を目的とする。
我々は,チャット機能を犠牲にすることなく,最先端のリアルタイムタスクを実現する強力なビデオMLLMであるVideoChat-R1を開発した。
ビデオMLLMのタスク強化におけるRTTの可能性について検討した。
論文 参考訳(メタデータ) (2025-04-09T15:09:27Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。