論文の概要: Reflexion: Language Agents with Verbal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.11366v3
- Date: Sat, 10 Jun 2023 04:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 00:53:02.805160
- Title: Reflexion: Language Agents with Verbal Reinforcement Learning
- Title(参考訳): リフレクション: 言語エージェントによる言語強化学習
- Authors: Noah Shinn, Federico Cassano, Beck Labash, Ashwin Gopinath, Karthik
Narasimhan, Shunyu Yao
- Abstract要約: リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
- 参考スコア(独自算出の注目度): 22.945382816436005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been increasingly used to interact with
external environments (e.g., games, compilers, APIs) as goal-driven agents.
However, it remains challenging for these language agents to quickly and
efficiently learn from trial-and-error as traditional reinforcement learning
methods require extensive training samples and expensive model fine-tuning. We
propose Reflexion, a novel framework to reinforce language agents not by
updating weights, but instead through linguistic feedback. Concretely,
Reflexion agents verbally reflect on task feedback signals, then maintain their
own reflective text in an episodic memory buffer to induce better
decision-making in subsequent trials. Reflexion is flexible enough to
incorporate various types (scalar values or free-form language) and sources
(external or internally simulated) of feedback signals, and obtains significant
improvements over a baseline agent across diverse tasks (sequential
decision-making, coding, language reasoning). For example, Reflexion achieves a
91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previous
state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis
studies using different feedback signals, feedback incorporation methods, and
agent types, and provide insights into how they affect performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ゲーム、コンパイラ、APIといった外部環境との対話にゴール駆動エージェントとして使われるようになった。
しかし、従来の強化学習法では広範なトレーニングサンプルと高価なモデル微調整が必要であるため、これらの言語エージェントが試行錯誤から迅速かつ効率的に学習することは依然として困難である。
本稿では,重み付けの更新ではなく,言語フィードバックによる言語エージェント強化のための新しいフレームワークであるreflexionを提案する。
具体的には、リフレクションエージェントはタスクフィードバック信号を口頭で反射し、その後、エピソディックメモリバッファに独自のリフレクションテキストを保持し、その後の試行でより良い意思決定を誘導する。
反射は様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレーション)を組み込むのに十分な柔軟性があり、様々なタスク(逐次意思決定、コーディング、言語推論)でベースラインエージェントよりも大幅に改善されている。
例えば、reflexionは、humanevalコーディングベンチマークで91%のpass@1精度を達成し、80%を達成する以前の最先端gpt-4を上回っている。
また, 異なるフィードバック信号, フィードバック組込み法, エージェントタイプを用いたアブレーションおよび分析を行い, それらの性能への影響について考察する。
関連論文リスト
- LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。
本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。
本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文 参考訳(メタデータ) (2024-08-25T18:47:55Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - MetaReflection: Learning Instructions for Language Agents using Past Reflections [11.028256182234017]
本稿では,言語エージェントの性能を向上させる新しいオフライン強化学習手法であるMetaReflectionを紹介する。
本稿では, 複雑な論理的推論, バイオメディカルセマンティックな類似性, オープンワールド質問応答, 脆弱性検出など, 複数領域にわたる評価によるメタリフレクションの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-13T10:51:43Z) - Is Feedback All You Need? Leveraging Natural Language Feedback in
Goal-Conditioned Reinforcement Learning [54.31495290436766]
我々はBabyAIを拡張し、環境力学と目標条件の成功から言語フィードバックを自動的に生成する。
我々は、この付加信号を利用するために、決定変換器アーキテクチャを変更する。
言語フィードバックによるトレーニングは, エージェントの一般化性能を向上させること, あるいは, 目標記述に代えて行うことが確認された。
論文 参考訳(メタデータ) (2023-12-07T22:33:34Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Exploring Fluent Query Reformulations with Text-to-Text Transformers and
Reinforcement Learning [11.205077315939644]
テキストからテキストへの変換器を用いた改質器の訓練により、クエリの改質を生成する方法を検討する。
ポリシーベースの強化学習アルゴリズムを適用し、報酬学習をさらに促進します。
当社のフレームワークはフレキシブルで,異なる下流環境から報奨信号の発信を可能にする。
論文 参考訳(メタデータ) (2020-12-18T03:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。