論文の概要: ReasonAct: Progressive Training for Fine-Grained Video Reasoning in Small Models
- arxiv url: http://arxiv.org/abs/2508.01533v1
- Date: Sun, 03 Aug 2025 01:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.926382
- Title: ReasonAct: Progressive Training for Fine-Grained Video Reasoning in Small Models
- Title(参考訳): ReasonAct:小型モデルにおける細粒度ビデオ推論のプログレッシブトレーニング
- Authors: Jiaxin Liu, Zhaolu Kang,
- Abstract要約: より小さなモデルにおけるビデオ推論を強化する手法であるReasonActを紹介する。
テキストのみの推論で基礎を築き、ビデオで微調整し、最後に時間対応の強化学習で補修します。
実験では, ベースライン上の17.9, 15.8, 12.3点の改善を実証した。
- 参考スコア(独自算出の注目度): 2.8939451583731963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent multimodal models have shown progress in vision-language tasks, small-scale variants still struggle with the fine-grained temporal reasoning required for video understanding. We introduce ReasonAct, a method that enhances video reasoning in smaller models through a three-stage training process: first building a foundation with text-only reasoning, then fine-tuning on video, and finally refining with temporal-aware reinforcement learning. We build upon Temporal Group Relative Policy Optimization (T-GRPO) by incorporating temporal consistency modeling into policy optimization. We also propose a biomechanically-motivated sub-action decomposition mechanism that provides graduated rewards for constituent action phases. Through experiments on HMDB51, UCF-101, and Kinetics-400, our 3B-parameter model achieves 67.2%, 94.1%, and 78.9% accuracy respectively, demonstrating improvements of 17.9, 15.8, and 12.3 points over baselines. Ablation studies validate that our progressive training methodology enables smaller models to achieve competitive video reasoning performance while maintaining computational efficiency.
- Abstract(参考訳): 最近のマルチモーダルモデルは、視覚言語タスクの進歩を示しているが、ビデオ理解に必要な微妙な時間的推論には、まだ小さなバリエーションが苦戦している。
ReasonActは,3段階の学習プロセスを通じて,より小さなモデルにおける映像の推論を強化する手法である。
我々は,時間的整合性モデリングを政策最適化に組み込むことで,時間的グループ相対的政策最適化(T-GRPO)を構築した。
また, 生体力学的に動機付けられたサブアクション分解機構を提案する。
HMDB51, UCF-101, Kinetics-400での実験により, 3Bパラメータの精度は67.2%, 94.1%, 78.9%となり, ベースライン上の17.9, 15.8, 12.3点の改善が示された。
アブレーション研究は、我々の進歩的トレーニング手法により、より小さなモデルで、計算効率を維持しながら、競争力のあるビデオ推論性能を実現することができることを示した。
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Improved Methods for Model Pruning and Knowledge Distillation [3.8993503758122663]
MAMAプルーニング(MAMA Pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。
モデルのサイズと計算の複雑さを効果的に減らし、極端なプルーニングレベルでも元の未実行モデルに匹敵する性能を維持しながら維持する。
予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-05-20T07:53:40Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation [32.65111815620319]
我々は、VISモデルを強化するための新しいビデオ事前学習手法を提案する。
私たちのイノベーションは、事前学習と微調整の段階の違いを減らすことに焦点を当てています。
提案手法は,OVISデータセットの平均精度を4.0%向上させる。
論文 参考訳(メタデータ) (2025-03-22T07:01:25Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。
我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-02-15T10:18:46Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - MoQuad: Motion-focused Quadruple Construction for Video Contrastive
Learning [10.41936704731324]
本稿では,ビデオコントラスト学習における動作特徴の学習を促進するための,シンプルで効果的なサンプル構築戦略を提案する。
提案手法はMoQuad (Mo- Focus Quadruple Construction) と呼ばれ, 正試料と負試料の両方の外観と動きを巧みに妨害することにより, インスタンス識別を増強する。
単にMoQuadをSimCLRに適用することで、ダウンストリームタスクにおいて、最先端のアートよりも優れたパフォーマンスを達成できることが、広範な実験によって示されている。
論文 参考訳(メタデータ) (2022-12-21T09:26:40Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。