論文の概要: Video Reasoning without Training
- arxiv url: http://arxiv.org/abs/2510.17045v1
- Date: Sun, 19 Oct 2025 23:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.264436
- Title: Video Reasoning without Training
- Title(参考訳): トレーニングなしのビデオ推論
- Authors: Deepak Sridhar, Kartikeya Bhardwaj, Jeya Pradha Jeyaraj, Nuno Vasconcelos, Ankita Nayak, Harris Teague,
- Abstract要約: 大規模マルチモーダルモデル(LMM)を用いたビデオ推論は、高価な強化学習(RL)と冗長連鎖に依存している。
モデル出力のエントロピーを信号として使用することにより、高品質なモデルが一連のマイクロ探索とマイクロ探索を経ていることが分かる。
次に、これらの新しい理論上の洞察を使って、推論時にモデルの振舞いを直接チューニングします。
- 参考スコア(独自算出の注目度): 38.74334895026965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video reasoning using Large Multimodal Models (LMMs) relies on costly reinforcement learning (RL) and verbose chain-of-thought, resulting in substantial computational overhead during both training and inference. Moreover, the mechanisms that control the thinking process in these reasoning models are very limited. In this paper, using entropy of the model's output as a signal, we discover that the high-quality models go through a series of micro-explorations and micro-exploitations which keep the reasoning process grounded (i.e., avoid excessive randomness while the model is exploring or thinking through an answer). We further observe that once this "thinking" process is over, more accurate models demonstrate a better convergence by reducing the entropy significantly via a final exploitation phase (i.e., a more certain convergence towards a solution trajectory). We then use these novel, theoretically-grounded insights to tune the model's behavior directly at inference, without using any RL or supervised fine-tuning. Specifically, during inference, our proposed approach called V-Reason (Video-Reason) adapts the value cache of the LMM via a few optimization steps on a small, trainable controller using an entropy-based objective, i.e., no supervision from any dataset or RL is necessary. This tuning improves the model's micro-exploration and exploitation behavior during inference. Our experiments show that our proposed method achieves significant improvements over the base instruction-tuned models across several video reasoning datasets, narrowing the gap with RL-trained models to within 0.6% average accuracy without any training, while offering massive efficiency benefits: output tokens are reduced by 58.6% compared to the RL model.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)を用いたビデオ推論は、コストのかかる強化学習(RL)と冗長連鎖に依存しており、トレーニングと推論の両方においてかなりの計算オーバーヘッドをもたらす。
さらに、これらの推論モデルにおける思考過程を制御するメカニズムは非常に限られている。
本稿では, モデル出力のエントロピーを信号として用いて, モデルが探索中, あるいは解答中, 過度なランダム性を避けるために, 精度の高いモデルが一連のマイクロ探索とマイクロ探索を経ることを示した。
さらに、この「思考」過程が終了すると、最終的な利用段階(すなわち解軌道へのより確実な収束)を通じてエントロピーを著しく減少させることにより、より正確なモデルがより良い収束を示すことが観察される。
次に、これらの新しい理論的な洞察を用いて、RLや教師付き微調整を使わずに、推論時にモデルの振舞いを直接調整する。
具体的には,提案手法であるV-Reason (Video-Reason) を,エントロピーに基づく目的,すなわち任意のデータセットやRLからの監視を必要としない,小さなトレーニング可能なコントローラ上でのいくつかの最適化ステップを通じて,LMMの値キャッシュに適応させる。
このチューニングは、推論中のモデルのマイクロ探索とエクスプロイトの振る舞いを改善する。
提案手法は,RL学習モデルとのギャップをトレーニング無しで平均精度0.6%に縮めるとともに,高効率性を実現し,RLモデルと比較して出力トークンを58.6%削減する。
関連論文リスト
- Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [15.789898162610529]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - ReLACE: Reinforcement Learning Agent for Counterfactual Explanations of
Arbitrary Predictive Models [6.939617874336667]
本稿では,最適対実的説明を生成するためのモデルに依存しないアルゴリズムを提案する。
本手法は,DRLエージェントが相互作用する環境に類似するため,任意のブラックボックスモデルに容易に適用できる。
さらに,DRLエージェントのポリシーから説明可能な決定ルールを抽出し,CF自体を透過的に生成するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-22T17:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。