論文の概要: Can language agents be alternatives to PPO? A Preliminary Empirical
Study On OpenAI Gym
- arxiv url: http://arxiv.org/abs/2312.03290v1
- Date: Wed, 6 Dec 2023 04:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:06:57.511870
- Title: Can language agents be alternatives to PPO? A Preliminary Empirical
Study On OpenAI Gym
- Title(参考訳): PPOに代わる言語エージェントは可能か?
オープンアイ体育館に関する予備的実証研究
- Authors: Junjie Sheng, Zixiao Huang, Chuyun Shen, Wenhao Li, Yun Hua, Bo Jin,
Hongyuan Zha, Xiangfeng Wang
- Abstract要約: 我々は,OpenAI Gymで収集した環境をテストベッドとして,TextGymシミュレータを構成するテキスト環境に接地する。
正確なドメイン知識制御のための5ドルのシナリオと、言語エージェントのための統一されたRLインスパイアされたフレームワークを紹介します。
古典的順序決定問題におけるPPOの代替となる可能性について予備評価する。
- 参考スコア(独自算出の注目度): 43.24826588565472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The formidable capacity for zero- or few-shot decision-making in language
agents encourages us to pose a compelling question: Can language agents be
alternatives to PPO agents in traditional sequential decision-making tasks? To
investigate this, we first take environments collected in OpenAI Gym as our
testbeds and ground them to textual environments that construct the TextGym
simulator. This allows for straightforward and efficient comparisons between
PPO agents and language agents, given the widespread adoption of OpenAI Gym. To
ensure a fair and effective benchmarking, we introduce $5$ levels of scenario
for accurate domain-knowledge controlling and a unified RL-inspired framework
for language agents. Additionally, we propose an innovative
explore-exploit-guided language (EXE) agent to solve tasks within TextGym.
Through numerical experiments and ablation studies, we extract valuable
insights into the decision-making capabilities of language agents and make a
preliminary evaluation of their potential to be alternatives to PPO in
classical sequential decision-making problems. This paper sheds light on the
performance of language agents and paves the way for future research in this
exciting domain. Our code is publicly available
at~\url{https://github.com/mail-ecnu/Text-Gym-Agents}.
- Abstract(参考訳): 言語エージェントにおけるゼロまたは少数ショットの意思決定能力は、説得力のある質問を提起する。 言語エージェントは、伝統的なシーケンシャルな意思決定タスクにおいて、PPOエージェントの代替となることができるか?
そこで我々はまず,OpenAI Gymで収集した環境をテストベッドとして,TextGymシミュレータを構成するテキスト環境に接地する。
これにより、OpenAI Gymが広く採用されていることから、PPOエージェントと言語エージェントの単純かつ効率的な比較が可能になる。
公平かつ効果的なベンチマークを実現するため、正確なドメイン知識制御のための5ドルのシナリオと言語エージェントのための統一RLインスパイアされたフレームワークを導入する。
さらに,TextGym内の課題を解決するために,探索探索誘導言語(EXE)エージェントを提案する。
数値実験とアブレーション研究を通じて,言語エージェントの意思決定能力に関する貴重な知見を抽出し,古典的順序決定問題におけるPPOの代替となる可能性について予備評価する。
本稿では,言語エージェントの性能に光を当て,このエキサイティング領域における今後の研究の道を開く。
私たちのコードは、~\url{https://github.com/mail-ecnu/Text-Gym-Agents}で公開されています。
関連論文リスト
- HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models [13.963676467274109]
我々は、より広い例とプロンプトでメモリを拡張することで、HELPERの機能を拡張する。
この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の命令、アクティブな質問、一般的な部屋の再編成から計画を実行するドメイン間で作業することができる。
本稿では,AChRED,TAA,DialFRED,Tidy Taskの4種類の対話型視覚言語エンボディエージェントについて評価を行った。
論文 参考訳(メタデータ) (2024-04-29T19:12:42Z) - NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - OpenAgents: An Open Platform for Language Agents in the Wild [71.16800991568677]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。
我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文 参考訳(メタデータ) (2023-10-16T17:54:53Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。