論文の概要: Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2511.02130v1
- Date: Mon, 03 Nov 2025 23:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.749156
- Title: Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning
- Title(参考訳): Re-FORC:効率的なチェーン・オブ・ソート推論のための適応的リワード予測
- Authors: Renos Zabounidis, Aditya Golatkar, Michael Kleinman, Alessandro Achille, Wei Xia, Stefano Soatto,
- Abstract要約: 適応型報酬予測法であるRe-FORCを提案する。
将来の思考トークン数の関数として期待される未来の報酬を予測することができる。
- 参考スコア(独自算出の注目度): 85.76121000710522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Re-FORC, an adaptive reward prediction method that, given a context, enables prediction of the expected future rewards as a function of the number of future thinking tokens. Re-FORC trains a lightweight adapter on reasoning models, demonstrating improved prediction with longer reasoning and larger models. Re-FORC enables: 1) early stopping of unpromising reasoning chains, reducing compute by 26% while maintaining accuracy, 2) optimized model and thinking length selection that achieves 4% higher accuracy at equal compute and 55% less compute at equal accuracy compared to the largest model, 3) adaptive test-time scaling, which increases accuracy by 11% in high compute regime, and 7% in low compute regime. Re-FORC allows dynamic reasoning with length control via cost-per-token thresholds while estimating computation time upfront.
- Abstract(参考訳): 適応型報奨予測手法であるRe-FORCを提案する。この手法は,将来予測される報奨の予測を,将来の思考トークン数の関数として実現する。
Re-FORCは推論モデルに軽量なアダプタを訓練し、より長い推論モデルとより大きなモデルで予測を改善した。
re-FORC は:
1) 予測不能な推論連鎖の早期停止, 精度を維持しつつ計算量を26%削減した。
2) 最適化されたモデルと思考長の選択により, 計算精度が4%向上し, 計算精度が55%低下した。
3) 適応型テストタイムスケーリングでは, 高い演算系では11%, 低い演算系では7%の精度で精度が向上した。
Re-FORCは、計算時間を事前に見積もりながら、コスト対トーケン閾値による長さ制御による動的推論を可能にする。
関連論文リスト
- DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Compute-Optimal Quantization-Aware Training [50.98555000360485]
量子化対応トレーニング(QAT)は、量子化されたニューラルネットワークの精度を向上させるための主要な技術である。
従来の研究では、トレーニングを完全精度(FP)フェーズに分解し、QATフェーズが続くと、より優れた精度が得られることが示されている。
最終性能に及ぼすQAT時間の影響について検討する。
論文 参考訳(メタデータ) (2025-09-26T21:09:54Z) - Reinforcement Pre-Training [78.5355979575498]
大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとしてReinforcement Pre-Training(RPT)を導入する。
RPTは、ドメイン固有の注釈付き回答に頼るのではなく、大量のテキストデータを汎用RLに活用するためのスケーラブルな方法を提供する。
その結果、RTPは言語モデルの事前学習を促進するための効果的で有望なスケーリングパラダイムとして位置づけられた。
論文 参考訳(メタデータ) (2025-06-09T17:59:53Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Electricity Price Prediction Using Multi-Kernel Gaussian Process Regression Combined with Kernel-Based Support Vector Regression [0.0]
本稿では,ドイツの電力価格予測のためのハイブリッドモデルを提案する。
このアルゴリズムはGaussian Process Regression(GPR)とSupport Vector Regression(SVR)の組み合わせに基づいている。
論文 参考訳(メタデータ) (2024-11-28T10:32:50Z) - Adaptive Basis Function Selection for Computationally Efficient Predictions [2.1499203845437216]
モデル領域のサブドメインにおける予測において,最も重要なBFを自動的に選択する手法を開発した。
これにより、予測精度を維持しながら、計算予測の計算複雑性を著しく低減できる。
論文 参考訳(メタデータ) (2024-08-14T11:53:18Z) - Uncertainty-Aware Time-to-Event Prediction using Deep Kernel Accelerated
Failure Time Models [11.171712535005357]
本稿では,時間-時間予測タスクのためのDeep Kernel Accelerated Failure Timeモデルを提案する。
我々のモデルは、2つの実世界のデータセットの実験において、繰り返しニューラルネットワークに基づくベースラインよりも良い点推定性能を示す。
論文 参考訳(メタデータ) (2021-07-26T14:55:02Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。