論文の概要: Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?
- arxiv url: http://arxiv.org/abs/2605.03195v1
- Date: Mon, 04 May 2026 22:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.664614
- Title: Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?
- Title(参考訳): 終点4B: エージェント実行タスクにおいて、より小さなモデルでフロンティアLLMを置き換えることができるか?
- Authors: Spandan Garg, Vikram Nitin, Yufan Huang,
- Abstract要約: スモール言語モデル(SLM)はエージェント端末実行のタスクにおいてフロンティアモデルに匹敵する性能を達成できる。
教師付ファインタニング(SFT)と強化学習(RL)による訓練後Qwen3-4BモデルであるTerminus-4Bを提案する。
Terminus-4Bは、No Subagentベースラインと比較して、メインエージェントのトークン使用量を最大30%削減できることがわかった。
- 参考スコア(独自算出の注目度): 3.636948650519796
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern coding agents increasingly delegate specialized subtasks to subagents, which are smaller, focused agentic loops that handle narrow responsibilities like search, debugging or terminal execution. This architectural pattern keeps the main agent's context window clean by isolating verbose outputs (e.g. build logs, test results, etc.) within the subagent context. Typically when agents employ subagents for such tasks, they use frontier models as these subagents. In this paper, we investigate whether a finetuned small language model (SLM) can achieve comparable performance to frontier models in the task of agentic terminal execution. We present Terminus-4B, which is a post-trained Qwen3-4B model via Supervised Finetuning (SFT) and Reinforcement Learning (RL) using rubric-based LLM-as-judge reward, specifically for this task. In our extensive evaluation spanning various frontier models, training ablations and main agent configurations, we find that Terminus-4B is able to reduce the token usage of the main agent by up to ~30% compared to the No Subagent baseline with no impact to agent performance on benchmarks like SWE-Bench Pro and our internal SWE-Bench C# benchmark, which tends to be heavy in verbose execution tasks. Furthermore, Terminus-4B improves key metrics showing the main agent relying on the outputs of the subagent and doing fewer terminal execution tasks by itself. We see that our model not only closes the gap between the Vanilla Qwen model and frontier models like Claude Sonnet / Opus / GPT-5.3-Codex, but often even exceeds their performance.
- Abstract(参考訳): 現代のコーディングエージェントは、特定のサブタスクをサブエージェントに委譲する傾向にある。
このアーキテクチャパターンは、サブエージェントコンテキスト内で冗長な出力(例えば、ビルドログ、テスト結果など)を分離することで、メインエージェントのコンテキストウィンドウをクリーンに保つ。
エージェントがそのようなタスクにサブエージェントを使用する場合、エージェントはこれらのサブエージェントとしてフロンティアモデルを使用する。
本稿では,エージェント端末実行タスクにおけるフロンティアモデルに匹敵する性能を達成できる小言語モデル(SLM)について検討する。
本稿では,この課題に対して,LLM-as-judge報酬を用いたSFT(Supervised Finetuning)とRL(Reinforcement Learning)を用いたQwen3-4BモデルであるTerminus-4Bを提案する。
SWE-Bench Proや内部のSWE-Bench C#ベンチマークのようなベンチマークでエージェントのパフォーマンスに影響を与えず、No Subagentベースラインと比較して、Terminus-4Bはメインエージェントのトークン使用量を最大30%削減できることがわかった。
さらに、Terminus-4Bは、サブエージェントの出力に依存するメインエージェントを示すキーメトリクスを改善し、単独でターミナル実行タスクを少なくする。
我々のモデルは、Vanilla QwenモデルとClaude Sonnet / Opus / GPT-5.3-Codexのようなフロンティアモデルとのギャップを埋めるだけでなく、しばしばパフォーマンスを超越している。
関連論文リスト
- Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate [16.68699018207298]
大規模言語モデル(LLM)における推論を改善するためのマルチエージェントの議論が示されている。
2段階の微調整パイプラインを通して,マルチエージェントの議論を単一のLLMに蒸留するフレームワークを開発した。
内部化モデルは、最大93%のトークンを使用して、明示的なマルチエージェントの議論パフォーマンスにマッチするか、超過します。
論文 参考訳(メタデータ) (2026-04-27T18:06:03Z) - AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - ROMA: Recursive Open Meta-Agent Framework for Long-Horizon Multi-Agent Systems [25.131570054560353]
現在のエージェントフレームワークは、ロングホライゾンタスクでパフォーマンスが低い。
これらの制限に対処するドメインに依存しないフレームワークであるROMAを紹介します。
ROMAとGEPA+が組み合わさって、推論と長文生成のベンチマークにおいて、システムレベルの主要な性能を提供することを示す。
論文 参考訳(メタデータ) (2026-02-02T09:20:59Z) - Behavior Knowledge Merge in Reinforced Agentic Models [48.89546963456286]
強化学習はポストトレーニングの中心であり、特に特別な推論行動を必要とするエージェントモデルにとって重要である。
既存のマージ手法は教師付き微調整(SFT)のために設計されており、RL学習エージェントモデル上でタスク固有の機能を維持するのに最適である。
本稿では,RL学習エージェントモデル用に明示的に設計された分散対応エージェントマージフレームワークであるReinforced Agent Merging (RAM)を提案する。
論文 参考訳(メタデータ) (2026-01-20T03:56:53Z) - Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems [11.42175340352007]
SupervisorAgentは、ランタイムと適応的な監視のための軽量でモジュール化されたフレームワークです。
SupervisorAgentは、エラーを積極的に修正し、非効率な振る舞いを誘導し、観察を浄化するために、臨界点に介入する。
挑戦的なGAIAベンチマークでは、SupervisorAgentは成功率を損なうことなく、Smolagentフレームワークのトークン消費を平均29.45%削減した。
論文 参考訳(メタデータ) (2025-10-30T15:12:59Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [65.73762766854192]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - Process Reward Models for LLM Agents: Practical Framework and Directions [10.986389591866617]
エージェントプロセス・リワード・モデル (AgentPRM) を導入する。
InversePRMを提案する。これは、明示的な結果の監督なしに、デモから直接プロセス報酬を学習する。
ALFWorldベンチマークで評価したところ、AgentPRMとInversePRMで訓練された3Bモデルは、強力なGPT-4oベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-14T17:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。