論文の概要: SAGE-32B: Agentic Reasoning via Iterative Distillation
- arxiv url: http://arxiv.org/abs/2601.04237v1
- Date: Sun, 04 Jan 2026 16:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.809343
- Title: SAGE-32B: Agentic Reasoning via Iterative Distillation
- Title(参考訳): SAGE-32B:反復蒸留によるエージェント推論
- Authors: Basab Jha, Firoj Paudel, Ujjwal Puri, Ethan Henkel, Zhang Yuting, Mateusz Kowalczyk, Mei Huang, Choi Donghyuk, Wang Junhao,
- Abstract要約: エージェント推論と長期計画タスクに焦点を当てた32億のパラメータ言語モデルであるSAGE-32Bを実証する。
このモデルはQwen2.5-32Bの事前訓練モデルで、反復蒸留を用いて微調整されている。
エージェント推論ベンチマークでは、SAGE-32Bはマルチツールの使用シナリオでより高い成功率を達成する。
- 参考スコア(独自算出の注目度): 0.43589251366561504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate SAGE-32B, a 32 billion parameter language model that focuses on agentic reasoning and long range planning tasks. Unlike chat models that aim for general conversation fluency, SAGE-32B is designed to operate in an agentic loop, emphasizing task decomposition, tool usage, and error recovery. The model is initialized from the Qwen2.5-32B pretrained model and fine tuned using Iterative Distillation, a two stage training process that improves reasoning performance through rigorously tested feedback loops. SAGE-32B also introduces an inverse reasoning approach, which uses a meta cognition head to forecast potential failures in the planning process before execution. On agentic reasoning benchmarks including MMLU-Pro, AgentBench, and MATH-500, SAGE-32B achieves higher success rates in multi tool usage scenarios compared to similarly sized baseline models, while remaining competitive on standard reasoning evaluations. Model weights are publicly released at https://huggingface.co/sagea-ai/sage-reasoning-32b
- Abstract(参考訳): エージェント推論と長期計画タスクに焦点を当てた32億のパラメータ言語モデルであるSAGE-32Bを実証する。
SAGE-32Bは一般的な会話の流布を目的としたチャットモデルとは異なり、エージェントループで動作し、タスクの分解、ツールの使用、エラー回復を強調するように設計されている。
このモデルはQwen2.5-32B事前訓練モデルから初期化され、厳密にテストされたフィードバックループを通じて推論性能を改善する2段階のトレーニングプロセスであるIterative Distillationを用いて微調整される。
SAGE-32Bはまた、メタ認知ヘッドを使用して実行前の計画プロセスの潜在的な失敗を予測する逆推論アプローチも導入している。
MMLU-Pro、AgenBench、MATH-500などのエージェント推論ベンチマークでは、SAGE-32Bは、同様のサイズのベースラインモデルと比較して、マルチツールの使用シナリオで高い成功率を達成する一方で、標準的な推論評価では競争力を維持している。
モデルウェイトはhttps://huggingface.co/sagea-ai/sage-reasoning-32bで公開されている。
関連論文リスト
- Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training [11.179110411255708]
トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化するための直接的なフレームワークを提案する。
その結果, 直接的アプローチは従来提案していた2段階の手順よりも優れていることがわかった。
事前学習損失と下流評価結果の完全なセットを公表する。
論文 参考訳(メタデータ) (2025-12-09T18:33:48Z) - Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models [23.832817775138675]
Nanbeige4-3Bは小型だが高性能な言語モデルである。
23Tの高品質トークンで事前訓練され、3000万以上の多様な命令に基づいて微調整され、小型言語モデルのスケーリング法則の境界を広げる。
論文 参考訳(メタデータ) (2025-12-06T03:36:27Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Scaling Agents via Continual Pre-training [80.97989245493326]
我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。
我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-09-16T17:57:19Z) - Apriel-Nemotron-15B-Thinker [12.580222268084036]
Apriel-Nemotron-15B-Thinkerは、ServiceNow Apriel SLMシリーズの15ビリオンパラメータモデルである。
o1-mini、QWQ32B、EXAONE-Deep-32Bといった中規模の最先端モデルに対して性能が向上する。
論文 参考訳(メタデータ) (2025-08-13T17:43:43Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Zero-Shot Commonsense Validation and Reasoning with Large Language Models: An Evaluation on SemEval-2020 Task 4 Dataset [0.16385815610837165]
本研究では,SemEval-2020 Task 4データセット上でのLarge Language Models(LLM)の性能を評価する。
モデルは、タスクA(Commonsense Validation)とタスクB(Commonsense Explanation)の2つのタスクでテストされる。
結果、LLaMA3-70BはタスクAで98.40%の最高精度を達成し、タスクBで93.40%の旧モデルより遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-19T12:40:49Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。