論文の概要: PACE: Two-Timescale Self-Evolution for Small Language Model Agents
- arxiv url: http://arxiv.org/abs/2605.23019v1
- Date: Thu, 21 May 2026 20:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.090076
- Title: PACE: Two-Timescale Self-Evolution for Small Language Model Agents
- Title(参考訳): PACE: 小型言語モデルエージェントのための2段階の自己進化
- Authors: Chen Ling, Pei Chen, Albert Guan, Jiaming Qu, Shayan Ali Akbar, Madhu Gopinathan, Erwin Cornejo,
- Abstract要約: 本研究では,凍結型小言語モデル (SLM) が資源制約下で有効な自己進化エージェントとして機能するかどうかを考察する。
PACE(Prompt And Control Logic Evolution)は,低リスクのプロンプト改善と高リスクの制御論理更新を協調する2段階のフレームワークである。
- 参考スコア(独自算出の注目度): 7.324586777176562
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying language-model agents in production often requires substantial compute and human effort to tune prompts, parsers, validators, and other components of the agent pipeline. Self-evolution offers a promising alternative, but most existing frameworks assume access to frontier models that can reliably diagnose failures, propose revisions, and judge their own updates. We study whether frozen small language models (SLMs) can serve as effective self-evolving agents under resource constraints. We propose PACE (Prompt And Control Logic Evolution), a two-timescale framework that coordinates low-risk prompt refinement with higher-risk control-logic updates. PACE evolves prompts under fixed control logic until prompt-level gains saturate, then considers constrained control-logic updates that are accepted through held-out validation. Across three frozen SLM backbones ranging from 4B to 14B parameters and four controlled benchmarks, PACE achieves the best performance on all 12 backbone--benchmark combinations, improving over vanilla SLM agents by up to +9.2% relative improvement and over the stronger single-mode evolution baseline by up to +5.4% relative improvement. A tau-bench case study further shows that PACE improves multi-turn tool-use success over vanilla and prompt-only evolution. These results suggest that reliable SLM agent self-evolution is possible without updating model weights or relying on frontier-model teachers, and that the key benefit is not any single final solver pattern but autonomous, validated discovery of task-appropriate inference strategies.
- Abstract(参考訳): 言語モデルエージェントを本番環境にデプロイするには、プロンプト、パーサー、バリデータ、その他のエージェントパイプラインのコンポーネントをチューニングするために、相当量の計算と人的作業が必要になることが多い。
自己進化は有望な代替手段を提供するが、既存のほとんどのフレームワークは、失敗を確実に診断し、修正を提案し、自身の更新を判断できるフロンティアモデルへのアクセスを前提としている。
本研究では,凍結型小言語モデル (SLM) が資源制約下で有効な自己進化エージェントとして機能するかどうかを考察する。
PACE(Prompt And Control Logic Evolution)は,低リスクのプロンプト改善と高リスクの制御論理更新を協調する2段階のフレームワークである。
PACEは、プロンプトレベルのゲインが飽和するまで、固定制御論理の下でプロンプトを進化させ、その後、ホールドアウトバリデーションを通じて受け入れられる制約付き制御論理更新を検討する。
4Bから14Bのパラメータと4つの制御されたベンチマークを含む3つの冷凍SLMバックボーンの中で、PACEは12のバックボーン-ベンチマークの組み合わせで最高のパフォーマンスを達成し、バニラSLMエージェントを最大で9.2%改善し、より強力なシングルモード進化ベースラインを最大で5.4%改善した。
Tau-benchのケーススタディでは、PACEはバニラとプロンプトのみの進化よりも多ターンツール使用の成功を改善することが示されている。
これらの結果から,モデル重みを更新したり,フロンティアモデル教師を頼りにすることなく,信頼性の高いSLMエージェントの自己進化が可能であることが示唆された。
関連論文リスト
- TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems [55.81570336226014]
動的マルチエージェントシステムのためのテスト時間共進化フレームワークであるTacoMASを紹介する。
TacoMASはMAS推論をオンライングラフ適応のタスクとして定式化し、ノードは役割固有の能力を持つエージェントを表し、エッジはその通信トポロジを定義する。
4つのベンチマークの実験では、TacoMASは20近いマルチエージェントベースラインを上回り、最強ベースラインよりも平均13.3%向上した。
論文 参考訳(メタデータ) (2026-05-10T13:52:00Z) - AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection [14.17960333915609]
進化的エージェントシステムは、計算効率と推論能力の間のトレードオフを強化する。
本稿では,AdaptEvolve: Adaptive Selection for Multi-LLM Evolutionary Refinementを紹介する。
論文 参考訳(メタデータ) (2026-02-12T13:26:56Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents [32.76299758137446]
大規模言語モデル(LLM)ベースのエージェントは、最近、複雑な推論とツールの使用において、環境とのマルチステップのインタラクションを通じて印象的な機能を示した。
これらの軌道にはリッチなフィードバックが含まれており、エージェントを正しい方向に誘導して問題を正しく解くことができる。
モンテカルロ木探索 (MCTS) のような一般的な手法は、探索と搾取を効果的にバランスさせることができるが、それらは様々な軌道間の相互依存を無視している。
エージェントが推論プロセスを反復的に最適化できる自己進化フレームワークSE-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:51:55Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。