論文の概要: Agentic-R1: Distilled Dual-Strategy Reasoning
- arxiv url: http://arxiv.org/abs/2507.05707v1
- Date: Tue, 08 Jul 2025 06:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.644691
- Title: Agentic-R1: Distilled Dual-Strategy Reasoning
- Title(参考訳): Agentic-R1:Dual-Strategy Reasoning
- Authors: Weihua Du, Pranjal Aggarwal, Sean Welleck, Yiming Yang,
- Abstract要約: 現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。
複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。
本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
- 参考スコア(独自算出の注目度): 44.848089301154026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current long chain-of-thought (long-CoT) models excel at mathematical reasoning but rely on slow and error-prone natural language traces. Tool-augmented agents address arithmetic via code execution, but often falter on complex logical tasks. We introduce a fine-tuning framework, DualDistill, that distills complementary reasoning strategies from multiple teachers into a unified student model. Using this approach, we train Agentic-R1, which dynamically selects the optimal strategy for each query, invoking tools for arithmetic and algorithmic problems, and using text-based reasoning for abstract ones. Our method improves accuracy across a range of tasks, including both computation-intensive and standard benchmarks, demonstrating the effectiveness of multi-strategy distillation in achieving robust and efficient reasoning. Our project is available at https://github.com/StigLidu/DualDistill
- Abstract(参考訳): 現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。
ツール拡張されたエージェントは、コード実行による演算に対処するが、しばしば複雑な論理的タスクに干渉する。
複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。
このアプローチを用いて,各クエリに対して最適戦略を動的に選択するAgentic-R1を訓練し,算術的およびアルゴリズム的な問題に対してツールを起動し,抽象的な問題に対してテキストベースの推論を使用する。
提案手法は, 計算集約型および標準ベンチマークを含む各種タスクの精度を向上し, 堅牢かつ効率的な推論を実現するためのマルチストラテジー蒸留の有効性を実証する。
私たちのプロジェクトはhttps://github.com/StigLidu/DualDistillで利用可能です。
関連論文リスト
- Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation [34.042565099565934]
そこで本研究では,抽象的な計画を通じてモデルを整理し,構成ステップを生成するための計画ベーストレーニングと推論手法を提案する。
その結果,CoTデータを直接微調整した場合と比較して,ボトルネックの緩和に優れた性能が得られた。
論文 参考訳(メタデータ) (2024-10-22T08:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。