論文の概要: Retrospex: Language Agent Meets Offline Reinforcement Learning Critic
- arxiv url: http://arxiv.org/abs/2505.11807v2
- Date: Tue, 27 May 2025 01:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.546054
- Title: Retrospex: Language Agent Meets Offline Reinforcement Learning Critic
- Title(参考訳): Retrospex: 言語エージェントがオフライン強化学習批判に遭遇
- Authors: Yufei Xiang, Yiqun Shen, Yeqin Zhang, Cam-Tu Nguyen,
- Abstract要約: Retrospexは、過去の経験を深く分析するエージェントフレームワークである。
LLMの行動可能性と強化学習批判によって推定される行動値を組み合わせる。
我々は,ScienceWorld,ALFWorld,Webshop環境におけるRetrospexを評価した。
- 参考スコア(独自算出の注目度): 4.776906435812746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) possess extensive knowledge and commonsense reasoning capabilities, making them valuable for creating powerful agents. However, existing LLM agent frameworks have not fully utilized past experiences for improvement. This work introduces a new LLM-based agent framework called Retrospex, which addresses this challenge by analyzing past experiences in depth. Unlike previous approaches, Retrospex does not directly integrate experiences into the LLM's context. Instead, it combines the LLM's action likelihood with action values estimated by a Reinforcement Learning (RL) Critic, which is trained on past experiences through an offline ''retrospection'' process. Additionally, Retrospex employs a dynamic action rescoring mechanism that increases the importance of experience-based values for tasks that require more interaction with the environment. We evaluate Retrospex in ScienceWorld, ALFWorld and Webshop environments, demonstrating its advantages over strong, contemporary baselines.
- Abstract(参考訳): 大規模言語モデル (LLM) には豊富な知識と常識推論能力があり、強力なエージェントを作成するのに有用である。
しかし、既存のLLMエージェントフレームワークは改善のために過去の経験を完全に活用していない。
この研究は、Retrospexと呼ばれるLLMベースの新しいエージェントフレームワークを導入し、過去の経験を深く分析することでこの問題に対処する。
以前のアプローチとは異なり、Retrospex は LLM のコンテキストに体験を直接統合していない。
代わりに、LLMの行動可能性と強化学習(RL)批判(Reinforcement Learning (RL) Critic)によって推定されるアクション値を組み合わせる。
さらにRetrospexでは、環境とのよりインタラクションを必要とするタスクに対して、エクスペリエンスベースの値の重要性を高める動的アクションリスコリング機構を採用している。
我々は,ScienceWorld,ALFWorld,Webshop環境におけるRetrospexの評価を行い,その強靭な現代ベースラインに対する優位性を実証した。
関連論文リスト
- Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。