論文の概要: VIDEOP2R: Video Understanding from Perception to Reasoning
- arxiv url: http://arxiv.org/abs/2511.11113v1
- Date: Fri, 14 Nov 2025 09:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.52316
- Title: VIDEOP2R: Video Understanding from Perception to Reasoning
- Title(参考訳): VIDEOP2R: 知覚から推論までのビデオ理解
- Authors: Yifan Jiang, Yueying Wang, Rui Zhao, Toufiq Parag, Zhimin Chen, Zhenyu Liao, Jayakrishnan Unnikrishnan,
- Abstract要約: 強化微調整(RFT)は,大規模言語モデル(LLM)の推論能力向上に有望な成果を示した。
本稿では,認識と推論を個別のプロセスとしてモデル化することにより,映像の推論を強化する新しいプロセス対応ビデオRFTフレームワークであるVideoP2Rを提案する。
- 参考スコア(独自算出の注目度): 15.617535118661488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.
- Abstract(参考訳): 教師付き微調整(SFT)と強化学習(RL)からなる2段階のフレームワークである強化微調整(RFT)は,大規模言語モデル(LLM)の推論能力向上に有望な結果を示している。
しかし、RTTを大規模ビデオ言語モデル(LVLM)に拡張することは依然として困難である。
本稿では,認識と推論を個別のプロセスとしてモデル化することにより,映像の推論を強化する新しいプロセス対応ビデオRFTフレームワークであるVideoP2Rを提案する。
SFTの段階では、認識と推論のための高品質なプロセス認識チェーン(CoT)データセットであるVideoP2R-CoT-162Kを生成するための3ステップパイプラインを開発する。
RLの段階では、認識と推論の異なる報酬を提供するプロセス対応グループ相対ポリシー最適化(PA-GRPO)アルゴリズムを導入する。
大規模な実験により、ビデオP2Rは7つのビデオ推論と理解ベンチマークのうち6つで最先端(SotA)のパフォーマンスを達成することが示された。
さらに, プロセス認識モデリングとPA-GRPOの有効性を検証し, 下流推論において, モデル知覚出力が情報に十分であることを示す。
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.64831081829936]
Reinforcement fine-tuning (RFT) は人間レベルの推論能力を達成する上で非常に有望である。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークにおいて,ビデオRFTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。