論文の概要: Iterative Experience Refinement of Software-Developing Agents
- arxiv url: http://arxiv.org/abs/2405.04219v1
- Date: Tue, 7 May 2024 11:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:20:03.721939
- Title: Iterative Experience Refinement of Software-Developing Agents
- Title(参考訳): ソフトウェア開発エージェントの反復的体験リファインメント
- Authors: Chen Qian, Jiahao Li, Yufan Dang, Wei Liu, YiFei Wang, Zihao Xie, Weize Chen, Cheng Yang, Yingli Zhang, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
- 参考スコア(独自算出の注目度): 81.09737243969758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents powered by large language models (LLMs) show significant potential for achieving high autonomy in various scenarios such as software development. Recent research has shown that LLM agents can leverage past experiences to reduce errors and enhance efficiency. However, the static experience paradigm, reliant on a fixed collection of past experiences acquired heuristically, lacks iterative refinement and thus hampers agents' adaptability. In this paper, we introduce the Iterative Experience Refinement framework, enabling LLM agents to refine experiences iteratively during task execution. We propose two fundamental patterns: the successive pattern, refining based on nearest experiences within a task batch, and the cumulative pattern, acquiring experiences across all previous task batches. Augmented with our heuristic experience elimination, the method prioritizes high-quality and frequently-used experiences, effectively managing the experience space and enhancing efficiency. Extensive experiments show that while the successive pattern may yield superior results, the cumulative pattern provides more stable performance. Moreover, experience elimination facilitates achieving better performance using just 11.54% of a high-quality subset.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した自律エージェントは、ソフトウェア開発などのさまざまなシナリオにおいて、高い自律性を達成する大きな可能性を示している。
近年の研究では、LLMエージェントが過去の経験を活用してエラーを低減し、効率を向上させることが示されている。
しかし、静的体験パラダイムは、過去の経験の固定されたコレクションに依存しており、反復的な洗練を欠いているため、エージェントの適応性を損なう。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
逐次的パターン,タスクバッチ内の最も近い経験に基づく精細化,累積的パターンという2つの基本パターンを提案する。
本手法は,ヒューリスティックな経験の排除により,高品質で頻繁な経験を優先し,経験空間を効果的に管理し,効率を向上する。
総合的な実験により、連続パターンは優れた結果をもたらすが、累積パターンはより安定した性能をもたらすことが示された。
さらに、エクスペリエンスの排除は、高品質なサブセットの11.54%しか使用せずに、より良いパフォーマンスを達成するのに役立ちます。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Efficient Diversity-based Experience Replay for Deep Reinforcement Learning [14.96744975805832]
本稿では, 状態実現における多種多様なサンプルの優先順位付けに決定論的点プロセスを活用する, 多様性に基づく経験リプレイ(DBER)を提案する。
我々は,MuJoCo,Atariゲーム,ハビタットのリアルな室内環境におけるロボットマニピュレーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:51:27Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Active Testing of Large Language Model via Multi-Stage Sampling [17.89896012553348]
AcTracerは,大規模言語モデル(LLM)に適した,アクティブなテストフレームワークである。
ほぼ最適な性能推定を達成するために、戦略的にテストデータの小さなサブセットを選択する。
実験の結果,AcTracerは既存手法と比較して最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-08-07T06:17:48Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - MRHER: Model-based Relay Hindsight Experience Replay for Sequential Object Manipulation Tasks with Sparse Rewards [11.79027801942033]
モデルベース Relay Hindsight Experience Replay (MRHER) と呼ばれる新しいモデルベースRLフレームワークを提案する。
MRHERは、継続的なタスクを複雑さを増してサブタスクに分解し、以前のサブタスクを使用して、その後のタスクの学習をガイドする。
MRHERは、ベンチマークタスクにおいて最先端のサンプル効率を示し、RHERの13.79%、14.29%を上回っている。
論文 参考訳(メタデータ) (2023-06-28T09:51:25Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。