論文の概要: ARM: Adaptive Reasoning Model
- arxiv url: http://arxiv.org/abs/2505.20258v2
- Date: Mon, 13 Oct 2025 03:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.655361
- Title: ARM: Adaptive Reasoning Model
- Title(参考訳): ARM:Adaptive Reasoning Model
- Authors: Siye Wu, Jian Xie, Yikai Zhang, Aili Chen, Kai Zhang, Yu Su, Yanghua Xiao,
- Abstract要約: 本稿では,そのタスクに基づいて適切なフォーマットを適応的に選択できる推論モデルであるAdaptive Reasoning Model (ARM)を提案する。
Ada-GRPOはARMが高いトークン効率を実現し、Long CoTのみに依存するモデルに匹敵するパフォーマンスを維持しながら、トークンを平均30%、最大70%削減する。
- 参考スコア(独自算出の注目度): 52.955386431182724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large reasoning models demonstrate strong performance on complex tasks, they lack the ability to adjust reasoning token usage based on task difficulty. This often leads to the "overthinking" problem -- excessive and unnecessary reasoning -- which, although potentially mitigated by human intervention to control the token budget, still fundamentally contradicts the goal of achieving fully autonomous AI. In this work, we propose Adaptive Reasoning Model (ARM), a reasoning model capable of adaptively selecting appropriate reasoning formats based on the task at hand. These formats include three efficient ones -- Direct Answer, Short CoT, and Code -- as well as a more elaborate format, Long CoT. To train ARM, we introduce Ada-GRPO, an adaptation of Group Relative Policy Optimization (GRPO), which addresses the format collapse issue in traditional GRPO. Ada-GRPO enables ARM to achieve high token efficiency, reducing tokens by an average of 30%, and up to 70%, while maintaining performance comparable to the model that relies solely on Long CoT. Furthermore, not only does it improve inference efficiency through reduced token generation, but it also brings a 2x speedup in training. In addition to the default Adaptive Mode, ARM supports two additional reasoning modes: 1) Instruction-Guided Mode, which allows users to explicitly specify the reasoning format via special tokens -- ideal when the appropriate format is known for a batch of tasks. 2) Consensus-Guided Mode, which aggregates the outputs of the three efficient formats and resorts to Long CoT in case of disagreement, prioritizing performance with higher token usage.
- Abstract(参考訳): 大きな推論モデルは複雑なタスクに対して強いパフォーマンスを示すが、タスクの難易度に基づいて推論トークンの使用を調整する能力は欠如している。
これはしばしば「過度で不要な推論」という「過度に考える」問題につながり、トークン予算の制御に対する人間の介入によって緩和される可能性があるが、それでも完全に自律的なAIを達成するという目標とは根本的に矛盾する。
本研究では,そのタスクに基づいて適切な推論形式を適応的に選択できる推論モデルであるAdaptive Reasoning Model (ARM)を提案する。
これらのフォーマットには、より精巧なフォーマットであるLong CoTだけでなく、Direct Answer、Short CoT、Codeの3つの効率的なフォーマットが含まれている。
ARMのトレーニングには,従来のGRPOのフォーマット崩壊問題に対処するグループ相対政策最適化(GRPO)の適応であるAda-GRPOを導入する。
Ada-GRPOはARMが高いトークン効率を実現し、Long CoTのみに依存するモデルに匹敵するパフォーマンスを維持しながら、トークンを平均30%、最大70%削減する。
さらに、トークン生成の削減による推論効率の向上だけでなく、トレーニングの2倍のスピードアップも実現している。
デフォルトのAdaptive Modeに加えて、ARMは2つの追加の推論モードをサポートしている。
1) インストラクションガイドモード – 特別なトークンを使って推論フォーマットを明示的に指定することが可能で、タスクのバッチで適切なフォーマットが知られている場合に理想的だ。
2) 3つの効率的なフォーマットの出力を集約したコンセンサスガイドモードでは,トークン使用率の向上による性能の優先順位付けを行う。
関連論文リスト
- DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models [36.962276192354174]
textbfDARTは、問題の難易度に応じて思考長を調整する。
textbfTruncationフレームワークは、いつ考えるのをやめるかを学ぶ
論文 参考訳(メタデータ) (2025-11-03T02:41:20Z) - DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。
本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文 参考訳(メタデータ) (2025-10-31T12:13:11Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - ARM2: Adaptive Reasoning Model with Vision Understanding and Executable Code [43.934586432132456]
大規模推論モデル(LRM)は、しばしば過剰な思考の問題に悩まされ、単純なタスクに対する不必要に長い推論を引き起こす。
ARM2は、複数のフォーマットにわたる推論性能と効率を適応的にバランスさせる統一モデルである。
論文 参考訳(メタデータ) (2025-10-09T12:49:34Z) - HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs [54.16300997612526]
大規模言語モデル (LLM) は、複雑なタスクの正確性を改善するために、Chain-of-Thought (CoT) 推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
論文 参考訳(メタデータ) (2025-09-28T16:46:12Z) - Adaptive Overclocking: Dynamic Control of Thinking Path Length via Real-Time Reasoning Signals [8.264189366042675]
本稿では,ハイパーパラメータ$alpha$ dynamicとコンテキスト認識を実現するAdaptive Overclockingを提案する。
提案手法は,2つの相補的な信号による推論速度をリアルタイムで調整する。
GSM8K, MATH, SVAMPの実験により, HACは高い精度・遅延トレードオフを実現することが示された。
論文 参考訳(メタデータ) (2025-09-21T09:40:27Z) - Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model [7.8354921036790275]
大きな推論モデル(LRM)は複雑な問題を解決するのに優れているが、過度なジレンマに直面している。
単純なタスクを扱う場合、思考トークンがオーバーロードされた冗長なレスポンスを生成することが多い。
これらのトークンは、リフレクションやバックトラックのような不要な高レベルの推論動作を引き起こし、効率を低下させる。
論文 参考訳(メタデータ) (2025-06-30T13:30:33Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文 参考訳(メタデータ) (2025-05-26T15:08:51Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [31.189242663680695]
本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。