論文の概要: Adaptive Overclocking: Dynamic Control of Thinking Path Length via Real-Time Reasoning Signals
- arxiv url: http://arxiv.org/abs/2509.17000v1
- Date: Sun, 21 Sep 2025 09:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.072508
- Title: Adaptive Overclocking: Dynamic Control of Thinking Path Length via Real-Time Reasoning Signals
- Title(参考訳): 適応オーバークロック:リアルタイム推論信号による思考経路長の動的制御
- Authors: Shuhao Jiang, Songbo Wang, Yang Qiao, Chun Xu, Chaoyang Zheng, Shengyi Zhou, Huanjun Wang, Fangming Li, Cong Zhang, Jiyu Wang,
- Abstract要約: 本稿では,ハイパーパラメータ$alpha$ dynamicとコンテキスト認識を実現するAdaptive Overclockingを提案する。
提案手法は,2つの相補的な信号による推論速度をリアルタイムで調整する。
GSM8K, MATH, SVAMPの実験により, HACは高い精度・遅延トレードオフを実現することが示された。
- 参考スコア(独自算出の注目度): 8.264189366042675
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Reasoning Models (LRMs) often suffer from computational inefficiency due to overthinking, where a fixed reasoning budget fails to match the varying complexity of tasks. To address this issue, we propose Adaptive Overclocking, a method that makes the overclocking hyperparameter $\alpha$ dynamic and context-aware. Our method adjusts reasoning speed in real time through two complementary signals: (1) token-level model uncertainty for fine-grained step-wise control, and (2) input complexity estimation for informed initialization. We implement this approach with three strategies: Uncertainty-Aware Alpha Scheduling (UA-$\alpha$S), Complexity-Guided Alpha Initialization (CG-$\alpha$I), and a Hybrid Adaptive Control (HAC) that combines both. Experiments on GSM8K, MATH, and SVAMP show that HAC achieves superior accuracy-latency trade-offs, reducing unnecessary computation on simple problems while allocating more resources to challenging ones. By mitigating overthinking, Adaptive Overclocking enhances both efficiency and overall reasoning performance.
- Abstract(参考訳): 大規模推論モデル(LRM)は、しばしば過度に考えることによって計算の非効率性に悩まされる。
この問題に対処するために、オーバークロックのハイパーパラメータを$\alpha$ dynamic and context-awareにする方法であるAdaptive Overclockingを提案する。
提案手法は,(1)詳細なステップワイド制御のためのトークンレベルのモデル不確実性,(2)情報初期化のための入力複雑性推定という2つの相補的な信号を用いて,リアルタイムに推論速度を調整する。
提案手法は,不確実性を考慮したAlpha Scheduling (UA-$\alpha$S), Complexity-Guided Alpha Initialization (CG-$\alpha$I), Hybrid Adaptive Control (HAC) の3つの戦略を用いて実装する。
GSM8K、MATH、SVAMPの実験では、HACはより優れた精度とレイテンシのトレードオフを実現し、単純な問題に対する不要な計算を減らし、より多くのリソースを課題に割り当てている。
過度な思考を緩和することにより、適応オーバークロックは効率性と全体的な推論性能の両方を向上させる。
関連論文リスト
- A1: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、既存のメソッドは重大な課題に直面している。
A1(非同期テスト時間スケーリング)は統計的に保証された適応推論フレームワークで、これらの課題に対処します。
A1は56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Controlling Thinking Speed in Reasoning Models [41.72496532709135]
人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。
本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。
提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
論文 参考訳(メタデータ) (2025-07-04T16:41:06Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - ARM: Adaptive Reasoning Model [36.53965139929349]
本稿では,そのタスクに基づいて適切なフォーマットを適応的に選択できる推論モデルであるAdaptive Reasoning Model (ARM)を提案する。
Ada-GRPOはARMが高いトークン効率を実現し、Long CoTのみに依存するモデルに匹敵するパフォーマンスを維持しながら、トークンを平均30%、最大70%削減する。
論文 参考訳(メタデータ) (2025-05-26T17:38:50Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Non-Asymptotic Guarantees for Average-Reward Q-Learning with Adaptive Stepsizes [4.169915659794567]
本研究は,非同期実装を用いたQ-Learningの平均逆Q-Learningの最終項目収束に対する最初の有限時間解析である。
私たちが研究しているアルゴリズムの重要な特徴は、各状態-作用ペアの局所クロックとして機能する適応的なステップサイズの使用である。
論文 参考訳(メタデータ) (2025-04-25T23:41:14Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。