論文の概要: Agent-Pro: Learning to Evolve via Policy-Level Reflection and
Optimization
- arxiv url: http://arxiv.org/abs/2402.17574v1
- Date: Tue, 27 Feb 2024 15:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:42:51.005728
- Title: Agent-Pro: Learning to Evolve via Policy-Level Reflection and
Optimization
- Title(参考訳): Agent-Pro: ポリシーレベル反射と最適化による進化の学習
- Authors: Wenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang
Hou, Zeqi Tan, Peng Li, Yueting Zhuang, Weiming Lu
- Abstract要約: Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
- 参考スコア(独自算出の注目度): 55.29142200038241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models exhibit robust problem-solving capabilities for diverse
tasks. However, most LLM-based agents are designed as specific task solvers
with sophisticated prompt engineering, rather than agents capable of learning
and evolving through interactions. These task solvers necessitate manually
crafted prompts to inform task rules and regulate LLM behaviors, inherently
incapacitating to address complex dynamic scenarios e.g., large interactive
games. In light of this, we propose Agent-Pro: an LLM-based Agent with
Policy-level Reflection and Optimization that can learn a wealth of expertise
from interactive experiences and progressively elevate its behavioral policy.
Specifically, it involves a dynamic belief generation and reflection process
for policy evolution. Rather than action-level reflection, Agent-Pro
iteratively reflects on past trajectories and beliefs, fine-tuning its
irrational beliefs for a better policy. Moreover, a depth-first search is
employed for policy optimization, ensuring continual enhancement in policy
payoffs. Agent-Pro is evaluated across two games: Blackjack and Texas Hold'em,
outperforming vanilla LLM and specialized models. Our results show Agent-Pro
can learn and evolve in complex and dynamic scenes, which also benefits
numerous LLM-based applications.
- Abstract(参考訳): 大規模言語モデルは多様なタスクに対して堅牢な問題解決能力を示す。
しかし、ほとんどのLSMベースのエージェントは、対話を通じて学習し、進化するエージェントではなく、高度な迅速なエンジニアリングを備えた特定のタスクソルバとして設計されている。
これらのタスクソルバは、タスクルールを通知し、llmの動作を規制するための手作業によるプロンプトを必要とする。
そこで我々は,対話的な経験から豊富な専門知識を習得し,その行動方針を漸進的に向上させるLLMベースのエージェントAgent-Proを提案する。
具体的には、政策進化のための動的信念の生成とリフレクションプロセスを含む。
エージェントプロは行動レベルの反映ではなく、過去の軌道や信念を反復的に反映し、その不合理な信念をより良い政策のために微調整する。
さらに,政策最適化には深さ優先探索が採用され,政策報酬の継続的な向上が図られる。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
この結果から,Agent-Proは複雑でダイナミックなシーンで学習し,進化できることを示す。
関連論文リスト
- AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - On Generative Agents in Recommendation [65.52796348055281]
Agent4RecはLarge Language Models (LLM)に基づく映画レコメンデーションシミュレータである。
ユーザプロファイル、メモリ、アクションモジュールを備えたLLMを内蔵した生成エージェントは、レコメンダシステムに特化している。
Agent4Recの評価では、エージェント間のアライメントと逸脱とユーザ個人化された好みの両方を強調している。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。
現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。
エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T17:24:15Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。