論文の概要: CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing
- arxiv url: http://arxiv.org/abs/2410.16670v1
- Date: Tue, 22 Oct 2024 03:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:56.305187
- Title: CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing
- Title(参考訳): CoPS: クロスタスク体験共有が可能なLLMエージェント
- Authors: Chen Yang, Chenyang Zhao, Quanquan Gu, Dongruo Zhou,
- Abstract要約: クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
- 参考スコア(独自算出の注目度): 70.25689961697523
- License:
- Abstract: Sequential reasoning in agent systems has been significantly advanced by large language models (LLMs), yet existing approaches face limitations. Reflection-driven reasoning relies solely on knowledge in pretrained models, limiting performance in novel scenarios, while experience-assisted reasoning often depends on external experiences and lacks clear principles for selecting representative experiences. We address these limitations by proposing CoPS (Cross-Task Experience Sharing), a generalizable algorithm that enhances sequential reasoning by cross-task experience sharing and selection. In detail, CoPS leverages agents' experiences on previous tasks, selecting distribution-matched experiences via a provable pessimism-based strategy to maximize utility while minimizing risks from distribution shifts. Extensive experimental results on benchmarks like Alfworld, Webshop, and HotPotQA demonstrate that CoPS consistently outperforms state-of-the-art baselines, with superior sample efficiency suitable for resource-constrained scenarios. Theoretically, we show that the performance of our algorithm depends on both the quality of the pretrained LLM and the matching between the agent's task-dependent trial distribution and that generated by the LLM. Our work bridges the gap between existing sequential reasoning paradigms and validates the effectiveness of leveraging cross-task experiences, shedding light on the potential to improve agents' generalization and adaptability across diverse tasks. Our codes are available at $\href{https://github.com/uclaml/COPS}{\text{https://github.com/uclaml/COPS}}$.
- Abstract(参考訳): エージェントシステムの逐次推論は大規模言語モデル(LLM)によって大幅に進歩しているが、既存のアプローチでは制限に直面している。
反射駆動推論は、事前訓練されたモデルにおける知識にのみ依存し、新しいシナリオにおけるパフォーマンスを制限する一方で、経験支援推論はしばしば外部経験に依存し、代表的な経験を選択するための明確な原則を欠いている。
これらの制約に対処するために、クロスタスク体験共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムであるCoPS(Cross-Task Experience Sharing)を提案する。
より詳しくは、CoPSはエージェントの以前のタスクにおける経験を活用し、分散シフトからのリスクを最小限に抑えつつ、実用性を最大化するための証明可能な悲観的戦略を通じて、分散マッチングされた経験を選択する。
Alfworld、Webshop、HotPotQAといったベンチマークによる大規模な実験結果によると、CoPSは一貫して最先端のベースラインを上回り、リソース制約のあるシナリオに適している。
理論的には、我々のアルゴリズムの性能は、事前訓練されたLLMの品質と、エージェントのタスク依存の試行分布とLLMが生成した結果のマッチングの両方に依存する。
我々の研究は、既存のシーケンシャル推論パラダイム間のギャップを埋め、クロスタスク体験を活用する効果を検証し、エージェントの一般化と多様なタスクへの適応性を改善する可能性に光を当てています。
私たちのコードは$\href{https://github.com/uclaml/COPS}{\text{https://github.com/uclaml/COPS}}$で利用可能です。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。