論文の概要: Can language agents be alternatives to PPO? A Preliminary Empirical
Study On OpenAI Gym
- arxiv url: http://arxiv.org/abs/2312.03290v1
- Date: Wed, 6 Dec 2023 04:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:06:57.511870
- Title: Can language agents be alternatives to PPO? A Preliminary Empirical
Study On OpenAI Gym
- Title(参考訳): PPOに代わる言語エージェントは可能か?
オープンアイ体育館に関する予備的実証研究
- Authors: Junjie Sheng, Zixiao Huang, Chuyun Shen, Wenhao Li, Yun Hua, Bo Jin,
Hongyuan Zha, Xiangfeng Wang
- Abstract要約: 我々は,OpenAI Gymで収集した環境をテストベッドとして,TextGymシミュレータを構成するテキスト環境に接地する。
正確なドメイン知識制御のための5ドルのシナリオと、言語エージェントのための統一されたRLインスパイアされたフレームワークを紹介します。
古典的順序決定問題におけるPPOの代替となる可能性について予備評価する。
- 参考スコア(独自算出の注目度): 43.24826588565472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The formidable capacity for zero- or few-shot decision-making in language
agents encourages us to pose a compelling question: Can language agents be
alternatives to PPO agents in traditional sequential decision-making tasks? To
investigate this, we first take environments collected in OpenAI Gym as our
testbeds and ground them to textual environments that construct the TextGym
simulator. This allows for straightforward and efficient comparisons between
PPO agents and language agents, given the widespread adoption of OpenAI Gym. To
ensure a fair and effective benchmarking, we introduce $5$ levels of scenario
for accurate domain-knowledge controlling and a unified RL-inspired framework
for language agents. Additionally, we propose an innovative
explore-exploit-guided language (EXE) agent to solve tasks within TextGym.
Through numerical experiments and ablation studies, we extract valuable
insights into the decision-making capabilities of language agents and make a
preliminary evaluation of their potential to be alternatives to PPO in
classical sequential decision-making problems. This paper sheds light on the
performance of language agents and paves the way for future research in this
exciting domain. Our code is publicly available
at~\url{https://github.com/mail-ecnu/Text-Gym-Agents}.
- Abstract(参考訳): 言語エージェントにおけるゼロまたは少数ショットの意思決定能力は、説得力のある質問を提起する。 言語エージェントは、伝統的なシーケンシャルな意思決定タスクにおいて、PPOエージェントの代替となることができるか?
そこで我々はまず,OpenAI Gymで収集した環境をテストベッドとして,TextGymシミュレータを構成するテキスト環境に接地する。
これにより、OpenAI Gymが広く採用されていることから、PPOエージェントと言語エージェントの単純かつ効率的な比較が可能になる。
公平かつ効果的なベンチマークを実現するため、正確なドメイン知識制御のための5ドルのシナリオと言語エージェントのための統一RLインスパイアされたフレームワークを導入する。
さらに,TextGym内の課題を解決するために,探索探索誘導言語(EXE)エージェントを提案する。
数値実験とアブレーション研究を通じて,言語エージェントの意思決定能力に関する貴重な知見を抽出し,古典的順序決定問題におけるPPOの代替となる可能性について予備評価する。
本稿では,言語エージェントの性能に光を当て,このエキサイティング領域における今後の研究の道を開く。
私たちのコードは、~\url{https://github.com/mail-ecnu/Text-Gym-Agents}で公開されています。
関連論文リスト
- Towards Autonomous Agents: Adaptive-planning, Reasoning, and Acting in Language Models [3.8936716676293917]
本稿では,自律型意思決定言語エージェント構築のためのコンテキスト内学習アルゴリズムを提案する。
選択した言語エージェントは,テキストベースのゲーム環境においてタスクを解く能力を示す。
論文 参考訳(メタデータ) (2024-08-12T19:18:05Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - OpenAgents: An Open Platform for Language Agents in the Wild [71.16800991568677]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。
我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文 参考訳(メタデータ) (2023-10-16T17:54:53Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。