論文の概要: Combee: Scaling Prompt Learning for Self-Improving Language Model Agents
- arxiv url: http://arxiv.org/abs/2604.04247v1
- Date: Sun, 05 Apr 2026 20:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.004551
- Title: Combee: Scaling Prompt Learning for Self-Improving Language Model Agents
- Title(参考訳): Combee: 自己改善型言語モデルエージェントのためのプロンプト学習
- Authors: Hanchen Li, Runyuan He, Qizheng Zhang, Changxiu Ji, Qiuyang Mang, Xiaokun Chen, Lakshya A Agrawal, Wei-Liang Liao, Eric Yang, Alvin Cheung, James Zou, Kunle Olukotun, Ion Stoica, Joseph E. Gonzalez,
- Abstract要約: 近年の即時学習の進歩により、大規模言語モデルエージェントはパラメータ変更なしに推論時間からタスク関連知識を取得できるようになっている。
多くのエージェントトレースや並列エージェントの実行から学習が増加する傾向に対応するために、素早い学習を並行して実行することは効率的かつ有益である。
我々は,自己改善エージェントのための並列プロンプト学習をスケールする新しいフレームワークであるCombeeを提案する。
- 参考スコア(独自算出の注目度): 58.781108056413274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.
- Abstract(参考訳): 近年の即時学習の進歩により、大規模言語モデルエージェントはパラメータ変更なしに推論時間からタスク関連知識を取得できるようになっている。
例えば、既存のメソッド(ACEやGEPAなど)は、システムのプロンプトを学習して、以前のエージェントの実行に基づいて精度を向上させることができる。
しかし、これらの手法は主に単一エージェントまたは低並列性の設定に焦点を当てている。
これにより、収集されたエージェントトレースの大きな集合から効率的に学習する能力が根本的に制限される。
多くのエージェントトレースや並列エージェントの実行から学習が増加する傾向に対応するために、素早い学習を並行して実行することは効率的かつ有益である。
しかし、スケーリングの原則的な戦略がなければ、現在の手法は高い並列性を備えた品質劣化に悩まされる。
即時学習の効率性と品質を両立させるため,自己改善エージェントの並列学習をスケールする新しいフレームワークであるCombeeを提案する。
Combeeは学習をスピードアップし、多くのエージェントを並列に実行しながら、その集合トレースから品質を劣化させることなく学習する。
これを実現するため、Combeeは並列スキャンを活用し、拡張シャッフル機構を採用している。
AppWorld, Terminal-Bench, Formula, FiNER の評価によると,Combee は従来手法よりも最大17倍の高速化を実現し,精度と同等のコストを達成している。
関連論文リスト
- Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - Towards Continuous Intelligence Growth: Self-Training, Continual Learning, and Dual-Scale Memory in SuperIntelliAgent [10.571643330948858]
SuperIntelliAgentは、学習可能な小さな拡散モデル(学習者)と凍結した大言語モデル(検証者)を結合するエージェント学習フレームワークである。
従来の教師付き微調整とは異なり、SuperIntelliAgentはアノテーションなしで自律的に学習する。
トレーニング可能な学習者と推論可能な検証器をペアリングすることは、知性を成長させる最小限の信頼性単位となると仮定する。
論文 参考訳(メタデータ) (2025-11-28T18:32:49Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文 参考訳(メタデータ) (2025-03-16T14:53:43Z) - Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。
このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文 参考訳(メタデータ) (2024-06-03T14:42:14Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Efficient Fine-Tuning of Compressed Language Models with Learners [12.768368718187428]
本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-08-03T13:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。