Fugu-MT 論文翻訳(概要): Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization

論文の概要: Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization

arxiv url: http://arxiv.org/abs/2402.17574v3
Date: Thu, 6 Jun 2024 18:40:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 19:47:50.272017
Title: Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization
Title（参考訳）: Agent-Pro: ポリシーレベルリフレクションと最適化による進化の学習
Authors: Wenqi Zhang, Ke Tang, Hai Wu, Mengna Wang, Yongliang Shen, Guiyang Hou, Zeqi Tan, Peng Li, Yueting Zhuang, Weiming Lu,
Abstract要約: 大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
参考スコア（独自算出の注目度）: 53.510942601223626
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) exhibit robust problem-solving capabilities for diverse tasks. However, most LLM-based agents are designed as specific task solvers with sophisticated prompt engineering, rather than agents capable of learning and evolving through interactions. These task solvers necessitate manually crafted prompts to inform task rules and regulate LLM behaviors, inherently incapacitating to address complex dynamic scenarios e.g., large interactive games. In light of this, we propose Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization that can learn a wealth of expertise from interactive experiences and progressively elevate its behavioral policy. Specifically, it involves a dynamic belief generation and reflection process for policy evolution. Rather than action-level reflection, Agent-Pro iteratively reflects on past trajectories and beliefs, fine-tuning its irrational beliefs for a better policy. Moreover, a depth-first search is employed for policy optimization, ensuring continual enhancement in policy payoffs. Agent-Pro is evaluated across two games: Blackjack and Texas Hold'em, outperforming vanilla LLM and specialized models. Our results show Agent-Pro can learn and evolve in complex and dynamic scenes, which also benefits numerous LLM-based applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。しかし、ほとんどのLSMベースのエージェントは、対話を通じて学習し、進化するエージェントではなく、高度な迅速なエンジニアリングを備えた特定のタスクソルバとして設計されている。これらのタスクソルバは、手作業で作成したプロンプトを使用してタスクルールを通知し、LLMの動作を規制する。そこで我々は,対話的な経験から豊富な専門知識を習得し,その行動方針を漸進的に向上させるLLMベースのエージェント,Agent-Proを提案する。具体的には、政策進化のための動的信念の生成とリフレクションプロセスを含む。エージェントプロは行動レベルの反映ではなく、過去の軌道や信念を反復的に反映し、その不合理な信念をより良い政策のために微調整する。さらに、政策最適化のために奥行き優先探索が採用され、政策ペイオフの継続的な強化が保証される。 Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。この結果から,Agent-Proは複雑でダイナミックなシーンで学習し,進化できることを示す。

関連論文リスト

Agents of Change: Self-Evolving LLM Agents for Strategic Planning [17.67637003848376]
我々は、シンプルなゲームプレイングエージェントから、自身のプロンプトとプレイヤーエージェントのコードを自動で書き直すことができるシステムまで、LSMベースのエージェントの進歩をベンチマークする。以上の結果から,特にClaude 3.7 や GPT-4o などのモデルによって駆動される自己進化型エージェントは,その戦略を自律的に採用することで,静的ベースラインを上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-05T05:45:24Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文参考訳（メタデータ） (2024-10-16T11:59:27Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
AgentLite: A Lightweight Library for Building and Advancing Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。 AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文参考訳（メタデータ） (2024-02-23T06:25:20Z)
Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-12T17:24:15Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。