論文の概要: Reflexion: an autonomous agent with dynamic memory and self-reflection
- arxiv url: http://arxiv.org/abs/2303.11366v1
- Date: Mon, 20 Mar 2023 18:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 17:42:55.440008
- Title: Reflexion: an autonomous agent with dynamic memory and self-reflection
- Title(参考訳): リフレクション:動的記憶と自己反射を持つ自律型エージェント
- Authors: Noah Shinn, Beck Labash, Ashwin Gopinath
- Abstract要約: 本稿では,動的メモリと自己回帰機能を備えたエージェントを実現する手法であるReflexionを提案する。
我々は,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQAにおける知識集約型質問応答タスクを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in decision-making large language model (LLM) agents have
demonstrated impressive performance across various benchmarks. However, these
state-of-the-art approaches typically necessitate internal model fine-tuning,
external model fine-tuning, or policy optimization over a defined state space.
Implementing these methods can prove challenging due to the scarcity of
high-quality training data or the lack of well-defined state space. Moreover,
these agents do not possess certain qualities inherent to human decision-making
processes, specifically the ability to learn from mistakes. Self-reflection
allows humans to efficiently solve novel problems through a process of trial
and error. Building on recent research, we propose Reflexion, an approach that
endows an agent with dynamic memory and self-reflection capabilities to enhance
its existing reasoning trace and task-specific action choice abilities. To
achieve full automation, we introduce a straightforward yet effective heuristic
that enables the agent to pinpoint hallucination instances, avoid repetition in
action sequences, and, in some environments, construct an internal memory map
of the given environment. To assess our approach, we evaluate the agent's
ability to complete decision-making tasks in AlfWorld environments and
knowledge-intensive, search-based question-and-answer tasks in HotPotQA
environments. We observe success rates of 97% and 51%, respectively, and
provide a discussion on the emergent property of self-reflection.
- Abstract(参考訳): 意思決定型大規模言語モデル(LLM)エージェントの最近の進歩は、様々なベンチマークで顕著な性能を示している。
しかし、これらの最先端のアプローチは、通常、定義された状態空間上での内部モデル微調整、外部モデル微調整、ポリシー最適化を必要とする。
これらの手法の実装は、高品質なトレーニングデータの不足や、明確に定義された状態空間の欠如によって困難であることが証明できる。
さらに、これらのエージェントは人間の意思決定プロセス、特にミスから学ぶ能力に固有の特性を持っていない。
自己回帰は、人間が試行錯誤によって新しい問題を効率的に解くことを可能にする。
近年の研究では,動的記憶と自己反射能力を有するエージェントを内包し,既存の推論トレースとタスク固有の行動選択能力を向上させるreflexionを提案する。
完全な自動化を実現するために,エージェントが幻覚インスタンスをピンポイントし,アクションシーケンスの反復を回避し,与えられた環境の内部メモリマップを構築するための,単純かつ効果的なヒューリスティックを導入する。
本研究では,AlfWorld環境における意思決定タスクを完了させるエージェントの能力と,HotPotQA環境における知識集約型質問応答タスクを評価する。
我々は,成功率97%と51%をそれぞれ観察し,自己回帰の創発的特性について考察した。
関連論文リスト
- LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback [33.14770105185958]
大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。
本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。
本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
論文 参考訳(メタデータ) (2024-08-25T18:47:55Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - MetaReflection: Learning Instructions for Language Agents using Past Reflections [11.028256182234017]
本稿では,言語エージェントの性能を向上させる新しいオフライン強化学習手法であるMetaReflectionを紹介する。
本稿では, 複雑な論理的推論, バイオメディカルセマンティックな類似性, オープンワールド質問応答, 脆弱性検出など, 複数領域にわたる評価によるメタリフレクションの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-13T10:51:43Z) - Is Feedback All You Need? Leveraging Natural Language Feedback in
Goal-Conditioned Reinforcement Learning [54.31495290436766]
我々はBabyAIを拡張し、環境力学と目標条件の成功から言語フィードバックを自動的に生成する。
我々は、この付加信号を利用するために、決定変換器アーキテクチャを変更する。
言語フィードバックによるトレーニングは, エージェントの一般化性能を向上させること, あるいは, 目標記述に代えて行うことが確認された。
論文 参考訳(メタデータ) (2023-12-07T22:33:34Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Exploring Fluent Query Reformulations with Text-to-Text Transformers and
Reinforcement Learning [11.205077315939644]
テキストからテキストへの変換器を用いた改質器の訓練により、クエリの改質を生成する方法を検討する。
ポリシーベースの強化学習アルゴリズムを適用し、報酬学習をさらに促進します。
当社のフレームワークはフレキシブルで,異なる下流環境から報奨信号の発信を可能にする。
論文 参考訳(メタデータ) (2020-12-18T03:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。