論文の概要: Iterative Experience Refinement of Software-Developing Agents
- arxiv url: http://arxiv.org/abs/2405.04219v1
- Date: Tue, 7 May 2024 11:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:20:03.721939
- Title: Iterative Experience Refinement of Software-Developing Agents
- Title(参考訳): ソフトウェア開発エージェントの反復的体験リファインメント
- Authors: Chen Qian, Jiahao Li, Yufan Dang, Wei Liu, YiFei Wang, Zihao Xie, Weize Chen, Cheng Yang, Yingli Zhang, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
- 参考スコア(独自算出の注目度): 81.09737243969758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents powered by large language models (LLMs) show significant potential for achieving high autonomy in various scenarios such as software development. Recent research has shown that LLM agents can leverage past experiences to reduce errors and enhance efficiency. However, the static experience paradigm, reliant on a fixed collection of past experiences acquired heuristically, lacks iterative refinement and thus hampers agents' adaptability. In this paper, we introduce the Iterative Experience Refinement framework, enabling LLM agents to refine experiences iteratively during task execution. We propose two fundamental patterns: the successive pattern, refining based on nearest experiences within a task batch, and the cumulative pattern, acquiring experiences across all previous task batches. Augmented with our heuristic experience elimination, the method prioritizes high-quality and frequently-used experiences, effectively managing the experience space and enhancing efficiency. Extensive experiments show that while the successive pattern may yield superior results, the cumulative pattern provides more stable performance. Moreover, experience elimination facilitates achieving better performance using just 11.54% of a high-quality subset.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した自律エージェントは、ソフトウェア開発などのさまざまなシナリオにおいて、高い自律性を達成する大きな可能性を示している。
近年の研究では、LLMエージェントが過去の経験を活用してエラーを低減し、効率を向上させることが示されている。
しかし、静的体験パラダイムは、過去の経験の固定されたコレクションに依存しており、反復的な洗練を欠いているため、エージェントの適応性を損なう。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
逐次的パターン,タスクバッチ内の最も近い経験に基づく精細化,累積的パターンという2つの基本パターンを提案する。
本手法は,ヒューリスティックな経験の排除により,高品質で頻繁な経験を優先し,経験空間を効果的に管理し,効率を向上する。
総合的な実験により、連続パターンは優れた結果をもたらすが、累積パターンはより安定した性能をもたらすことが示された。
さらに、エクスペリエンスの排除は、高品質なサブセットの11.54%しか使用せずに、より良いパフォーマンスを達成するのに役立ちます。
関連論文リスト
- Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - MRHER: Model-based Relay Hindsight Experience Replay for Sequential Object Manipulation Tasks with Sparse Rewards [11.79027801942033]
モデルベース Relay Hindsight Experience Replay (MRHER) と呼ばれる新しいモデルベースRLフレームワークを提案する。
MRHERは、継続的なタスクを複雑さを増してサブタスクに分解し、以前のサブタスクを使用して、その後のタスクの学習をガイドする。
MRHERは、ベンチマークタスクにおいて最先端のサンプル効率を示し、RHERの13.79%、14.29%を上回っている。
論文 参考訳(メタデータ) (2023-06-28T09:51:25Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Co-Imitation Learning without Expert Demonstration [39.988945772085465]
我々は,エージェントの過去の優れた経験を専門家のデモンストレーションなしで活用するための,CoIL(Co-Imitation Learning)と呼ばれる新しい学習フレームワークを提案する。
経験は有用か誤解を招く可能性があるが、期待される値関数の利得によって各経験の潜在的有用性を評価することを提案する。
各種課題に対する実験結果から,提案したコイミテーション学習フレームワークの有意な優位性を示した。
論文 参考訳(メタデータ) (2021-03-27T06:58:40Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。