論文の概要: Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.23473v1
- Date: Mon, 27 Oct 2025 16:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.606507
- Title: Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
- Title(参考訳): Video-Thinker:強化学習による"Sinking with Videos"の創出
- Authors: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng,
- Abstract要約: Video-Thinkerを使えば、MLLMはビデオ推論のためのグラウンドやキャプションタスクを自律的にナビゲートできる。
我々のVideo-Thinker-7Bは、Video-R1のような既存のベースラインを大幅に上回り、7BサイズのMLLMの最先端性能を確立します。
- 参考スコア(独自算出の注目度): 20.07360876062324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image reasoning methods, particularly "Thinking with Images", have demonstrated remarkable success in Multimodal Large Language Models (MLLMs); however, this dynamic reasoning paradigm has not yet been extended to video reasoning tasks. In this paper, we propose Video-Thinker, which empowers MLLMs to think with videos by autonomously leveraging their intrinsic "grounding" and "captioning" capabilities to generate reasoning clues throughout the inference process. To spark this capability, we construct Video-Thinker-10K, a curated dataset featuring autonomous tool usage within chain-of-thought reasoning sequences. Our training strategy begins with Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group Relative Policy Optimization (GRPO) to strengthen this reasoning capability. Through this approach, Video-Thinker enables MLLMs to autonomously navigate grounding and captioning tasks for video reasoning, eliminating the need for constructing and calling external tools. Extensive experiments demonstrate that Video-Thinker achieves significant performance gains on both in-domain tasks and challenging out-of-domain video reasoning benchmarks, including Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B substantially outperforms existing baselines such as Video-R1 and establishes state-of-the-art performance among 7B-sized MLLMs.
- Abstract(参考訳): 画像推論手法の最近の進歩、特に「シンキング・ウィズ・イメージ」は、マルチモーダル大言語モデル(MLLM)において顕著な成功を収めているが、この動的推論パラダイムはビデオ推論タスクにはまだ拡張されていない。
そこで本稿では,MLLM によるビデオの思考を支援する Video-Thinker を提案する。この技術は,その内在的 "グラウンド" と "キャプション" 機能を自律的に活用し,推論プロセス全体を通して推論の手がかりを生成する。
この機能を起動するために、我々は、チェーンオブソート推論シーケンス内で自律的なツール使用が可能なキュレートデータセットであるVideo-Thinker-10Kを構築した。
我々のトレーニング戦略は、推論形式を学ぶための監督された微調整(SFT)と、この推論能力を強化するためのグループ相対政策最適化(GRPO)から始まります。
このアプローチを通じて、Video-ThinkerはMLLMに対して、ビデオ推論のためのグラウンドとキャプションタスクを自律的にナビゲートし、外部ツールの構築と呼び出しを不要にする。
大規模な実験によると、Video-Thinkerは、ドメイン内タスクと、Video-Holmes、CG-Bench-Reasoning、VRBenchといったドメイン外のビデオ推論ベンチマークの両方で、大幅なパフォーマンス向上を実現している。
我々のVideo-Thinker-7Bは、Video-R1のような既存のベースラインを大幅に上回り、7BサイズのMLLMの最先端性能を確立します。
関連論文リスト
- FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting [62.25888935329454]
本稿では,長編ビデオによる思考の概念を紹介し,新しいフレームワークFrameThinkerを提案する。
FrameThinkerは,処理フレーム数を劇的に削減しつつ,ベースラインよりも+10.4%の大幅な平均改善を実現していることを示す。
最も注目すべきは、7BモデルであるFrameThinkerがLongVideo-Reason上で新しい最先端技術を確立し、平均20.6フレームで76.1%の精度を実現したことです。
論文 参考訳(メタデータ) (2025-09-29T05:36:58Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - ViTCoT: Video-Text Interleaved Chain-of-Thought for Boosting Video Understanding in Large Language Models [50.42183477287337]
ビデオ理解は、高いレベルの認知的推論で低レベルの視覚信号をブリッジする上で重要な役割を担っている。
ビデオテキストインターリーブドCoT(ViTCoT)の新たな推論パラダイムについて紹介する。
従来のテキストのみのCoTパラダイムと比較して,ViTCoTは性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-07-14T03:21:13Z) - VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9270920369958]
ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T11:33:43Z) - StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models [39.61402609070949]
Video Affective Reasoning (またはVideo Affective Reasoning)は、ビデオが人間にどのように感じられるかを予測するためのフレームワークである。
多言語モデル(LMLM)を用いたビデオ影響推論(またはビデオ影響推論)のためのStimuli-MLを提案する。
Stimuli-MLは、映像に対する視聴者の感情反応を理解し、一貫性と洞察に富んだ説明を提供する上で、既存のMLLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-31T00:00:50Z) - Video Understanding with Large Language Models: A Survey [107.7736911322462]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。