論文の概要: Control-R: Towards controllable test-time scaling
- arxiv url: http://arxiv.org/abs/2506.00189v1
- Date: Fri, 30 May 2025 19:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.489531
- Title: Control-R: Towards controllable test-time scaling
- Title(参考訳): Control-R: 制御可能なテスト時間スケーリングを目指して
- Authors: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou,
- Abstract要約: 推論制御場(RCF)は、木探索の観点から推論を導くために構造化制御信号を注入する。
RCFは、複雑なタスクを解く際に、与えられた制御条件に応じて推論の労力を調整することができる。
条件蒸留ファインタニング(CDF)は、特に制御-R-32Bをモデルとし、試験時間中の推論を効果的に調整する。
- 参考スコア(独自算出の注目度): 44.02977521360594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper target in addressing the challenges of underthinking and overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time approach that injects structured control signals to guide reasoning from a tree search perspective. RCF enables models to adjust reasoning effort according to given control conditions when solving complex tasks. Additionally, we present the Control-R-4K dataset, which consists of challenging problems annotated with detailed reasoning processes and corresponding control fields. To further enhance reasoning control, we propose a Conditional Distillation Finetuning (CDF) method, which trains model--particularly Control-R-32B--to effectively adjust reasoning effort during test time. Experimental results on benchmarks such as AIME2024 and MATH500 demonstrate that our approach achieves state-of-the-art performance at the 32B scale while enabling a controllable Long CoT reasoning process (L-CoT). Overall, this work introduces an effective paradigm for controllable test-time scaling reasoning.
- Abstract(参考訳): 本稿では,大規模推論モデル(LRM)の長鎖推論(CoT)をRCF(Reasoning Control Fields)に導入し,構造的制御信号を注入し,木探索の観点から推論を導出する新たなテストタイムアプローチを提案する。
RCFは、複雑なタスクを解く際に、与えられた制御条件に応じて推論の労力を調整することができる。
さらに、詳細な推論プロセスと対応する制御フィールドに注釈付けされた課題からなる制御-R-4Kデータセットを提案する。
推論制御をさらに強化するため,条件付き蒸留ファインタニング (CDF) 法を提案する。
AIME2024やMATH500などのベンチマークによる実験結果から,制御可能なLong CoT推論プロセス(L-CoT)を実現しつつ,32Bスケールでの最先端性能を実現することができた。
全体として、この研究は、制御可能なテスト時間スケーリング推論のための効果的なパラダイムを導入している。
関連論文リスト
- AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting [23.004467211806467]
AdaCtrlは、難しい適応推論の予算配分をサポートする新しいフレームワークである。
自己評価問題難易度に基づいて推論長を動的に調整する。
AdaCtrlは、推論予算の正確なユーザコントロールを可能にし、特定のニーズを満たすように調整されたレスポンスを可能にする。
論文 参考訳(メタデータ) (2025-05-24T18:46:50Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Controllability-Constrained Deep Network Models for Enhanced Control of
Dynamical Systems [4.948174943314265]
力学の知識を持たない力学系の制御は重要かつ困難な課題である。
ディープニューラルネットワーク(DNN)のような現代の機械学習アプローチは、制御入力と対応する状態観測出力から動的モデルの推定を可能にする。
制御性のあるデータから推定されるモデルを明確に拡張する制御理論法を提案する。
論文 参考訳(メタデータ) (2023-11-11T00:04:26Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - CoCoMoT: Conformance Checking of Multi-Perspective Processes via SMT
(Extended Version) [62.96267257163426]
我々はCoCoMoT(Computing Conformance Modulo Theories)フレームワークを紹介する。
まず、純粋な制御フロー設定で研究したSATベースのエンコーディングを、データ認識ケースに持ち上げる方法を示す。
次に,プロパティ保存型クラスタリングの概念に基づく新しい前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-18T20:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。