論文の概要: ASTER: Agentic Scaling with Tool-integrated Extended Reasoning
- arxiv url: http://arxiv.org/abs/2602.01204v1
- Date: Sun, 01 Feb 2026 12:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.659879
- Title: ASTER: Agentic Scaling with Tool-integrated Extended Reasoning
- Title(参考訳): ASTER: ツール統合拡張推論によるエージェントスケーリング
- Authors: Xuqin Zhang, Quan He, Zhenrui Zheng, Zongzhang Zhang, Xu He, Dong Li,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)における長軸推論の主流パラダイムとして登場した。
ASTER(Agentic Scaling with Tool-integrated Extended Reasoning)は,コールドスタート戦略を通じて,この崩壊を回避するフレームワークである。
ほんの4Kのインタラクション・ディエンス・トラジェクトリの,小規模な専門家によるコールドスタートセットが,ダウンストリームのパフォーマンスを最強に向上させることがわかった。
- 参考スコア(独自算出の注目度): 27.877412657068806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a dominant paradigm for eliciting long-horizon reasoning in Large Language Models (LLMs). However, scaling Tool-Integrated Reasoning (TIR) via RL remains challenging due to interaction collapse: a pathological state where models fail to sustain multi-turn tool usage, instead degenerating into heavy internal reasoning with only trivial, post-hoc code verification. We systematically study three questions: (i) how cold-start SFT induces an agentic, tool-using behavioral prior, (ii) how the interaction density of cold-start trajectories shapes exploration and downstream RL outcomes, and (iii) how the RL interaction budget affects learning dynamics and generalization under varying inference-time budgets. We then introduce ASTER (Agentic Scaling with Tool-integrated Extended Reasoning), a framework that circumvents this collapse through a targeted cold-start strategy prioritizing interaction-dense trajectories. We find that a small expert cold-start set of just 4K interaction-dense trajectories yields the strongest downstream performance, establishing a robust prior that enables superior exploration during extended RL training. Extensive evaluations demonstrate that ASTER-4B achieves state-of-the-art results on competitive mathematical benchmarks, reaching 90.0% on AIME 2025, surpassing leading frontier open-source models, including DeepSeek-V3.2-Exp.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 大規模言語モデル(LLM)における長軸推論の主流パラダイムとして登場した。
しかし、RLによるツール統合推論(TIR)のスケーリングは、相互作用の崩壊によって困難なままである。
我々は3つの質問を体系的に研究する。
(i)冷間開始SFTがエージェント的ツールを用いた行動前処理をいかに引き起こすか。
(II)冷間開始軌道の相互作用密度が探査および下流RLの結果をどのように形成するか、そして
3)RL相互作用予算が様々な推論時間予算の下での学習力学と一般化にどのように影響するか。
次にASTER(Agentic Scaling with Tool-integrated Extended Reasoning)を紹介します。
実験では, わずか4Kの相互作用密度軌道からなる小型の冷間開始器が, 下流での最強性能を達成し, 拡張RL訓練において優れた探索を可能にする頑健な先行装置が確立された。
ASTER-4Bは競争力のある数学ベンチマークで最先端の結果を達成し、AIME 2025で90.0%に達し、DeepSeek-V3.2-Expを含む最前線のオープンソースモデルを上回った。
関連論文リスト
- MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling [115.74855199827596]
MiroThinkerは、ツール拡張推論と情報検索機能を向上させるために設計されたオープンソースの研究エージェントである。
モデルサイズやコンテキスト長のみをスケールアップする以前のエージェントとは異なり、MiroThinker氏はモデルレベルでのインタラクションスケーリングについて検討している。
論文 参考訳(メタデータ) (2025-11-14T18:52:07Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。
CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。
実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-15T09:28:57Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management [18.953750405635393]
Decoupled Group Reward Optimization (DGRO) は、大規模言語モデル(LLM)推論のための一般的なRLアルゴリズムである。
我々はDGROが平均96.9%の精度でLogicデータセットの最先端性能を達成することを示し、数学的なベンチマークで強い一般化を示す。
論文 参考訳(メタデータ) (2025-05-19T10:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。