Fugu-MT 論文翻訳(概要): Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

論文の概要: Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

arxiv url: http://arxiv.org/abs/2308.02151v1
Date: Fri, 4 Aug 2023 06:14:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-07 13:51:55.503381
Title: Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization
Title（参考訳）: retroformer: ポリシー勾配最適化による大規模言語エージェントの振り返り
Authors: Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
Abstract要約: 本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
参考スコア（独自算出の注目度）: 103.28404907655539
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)が,人間からの問い合わせに応答するのではなく,客観的な多段階タスクを単独で実行可能な自律型言語エージェントに拡張される,強力な新しいトレンドが出現している。しかし、既存の言語エージェントのほとんどは、環境固有の報酬を使って最適化されていない。一部のエージェントは、言葉によるフィードバックを通じて反復的な洗練を可能にするが、報酬からのグラデーションベースの学習と互換性のある方法では理屈も計画もしない。本稿では,言語エージェントが環境フィードバックからポリシーグラデーションを通じて自動的に調整するリフレクションモデルを学習することで,大規模言語エージェントを強化するための原則的フレームワークを提案する。特に,提案するエージェントアーキテクチャは,複数の環境やタスクにまたがる報酬から学習し,事前の失敗と行動計画の根本原因を要約することで,言語エージェントプロンプトを洗練する事前学習した言語モデルを微調整する。様々なタスクにおける実験結果から,言語エージェントは時間とともに改善し,環境からの勾配を適切に活用しないベースラインをかなり上回ることを示した。これは、ポリシー勾配の最適化を使用して言語エージェントを改善することを示し、私たちの作業が最初の1つだと信じており、エージェントアーキテクチャの他のモデルを最適化してエージェントのパフォーマンスを時間とともに向上させることに期待できる。

関連論文リスト

Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文参考訳（メタデータ） (2025-02-04T18:58:31Z)
Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文参考訳（メタデータ） (2024-06-26T17:59:18Z)
MetaReflection: Learning Instructions for Language Agents using Past Reflections [11.028256182234017]
本稿では,言語エージェントの性能を向上させる新しいオフライン強化学習手法であるMetaReflectionを紹介する。本稿では, 複雑な論理的推論, バイオメディカルセマンティックな類似性, オープンワールド質問応答, 脆弱性検出など, 複数領域にわたる評価によるメタリフレクションの有効性を実証する。
論文参考訳（メタデータ） (2024-05-13T10:51:43Z)
Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level [23.833528781431884]
社会シミュレーションタスク (Social Simulation Tasks in Sandbox, STSS) は、マルチエージェントシミュレーションのための言語レベルのベンチマークである。我々の評価結果は、STSSベンチマークが最先端の言語エージェントに挑戦していることを示している。
論文参考訳（メタデータ） (2024-04-08T09:25:32Z)
FireAct: Toward Language Agent Fine-tuning [63.06306936820456]
我々は、言語エージェントを得るための微調整LMの見落としの方向について論じる。 GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。本稿では,複数のタスクからのトラジェクトリとメソッドのプロンプトを併用した微調整LMの新たなアプローチであるFireActを提案する。
論文参考訳（メタデータ） (2023-10-09T17:58:38Z)
Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。 LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文参考訳（メタデータ） (2023-10-06T17:55:11Z)
Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文参考訳（メタデータ） (2023-07-10T11:29:41Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文参考訳（メタデータ） (2023-03-20T18:08:50Z)
Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文参考訳（メタデータ） (2022-09-30T19:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。