Fugu-MT 論文翻訳(概要): EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents

論文の概要: EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents

arxiv url: http://arxiv.org/abs/2403.12014v1
Date: Mon, 18 Mar 2024 17:51:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 19:01:22.283834
Title: EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents
Title（参考訳）: EnvGen: 人工呼吸器を訓練するためのLLMによる環境の生成と適応
Authors: Abhay Zala, Jaemin Cho, Han Lin, Jaehong Yoon, Mohit Bansal,
Abstract要約: 本稿では,より小型のRLエージェントが,弱体化している有用なスキルを学習するのを支援するために,EnvGenを提案する。 EnvGenで訓練された小さなRLエージェントは、GPT-4エージェントを含むSOTAメソッドよりも優れており、長い水平タスクをかなり高速に学習することができる。
参考スコア（独自算出の注目度）: 65.38474102119181
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent SOTA approaches for embodied learning via interaction directly employ large language models (LLMs) as agents to determine the next steps in an environment. Due to their world knowledge and reasoning capabilities, LLM agents achieve stronger performance than previous smaller agents based on reinforcement learning (RL); however, frequently calling LLMs is slow and expensive. Instead of directly employing LLMs as agents, can we use LLMs' reasoning capabilities to adaptively create training environments to help smaller embodied RL agents learn useful skills that they are weak at? We propose EnvGen, a novel framework to address this question. First, we prompt an LLM to generate training environments that allow agents to quickly learn different tasks in parallel. Concretely, the LLM is given the task description and simulator objectives that the agents should learn and is then asked to generate a set of environment configurations (e.g., different terrains, items given to agents, etc.). Next, we train a small RL agent in a mixture of the original and LLM-generated environments. Then, we enable the LLM to continuously adapt the generated environments to progressively improve the skills that the agent is weak at, by providing feedback to the LLM in the form of the agent's performance. We demonstrate the usefulness of EnvGen with comprehensive experiments in Crafter and Heist environments. We find that a small RL agent trained with EnvGen can outperform SOTA methods, including a GPT-4 agent, and learns long-horizon tasks significantly faster. We show qualitatively how the LLM adapts training environments to help improve RL agents' weaker skills over time. Additionally, EnvGen is substantially more efficient as it only uses a small number of LLM calls (e.g., 4 in total), whereas LLM agents require thousands of LLM calls. Lastly, we present detailed ablation studies for our design choices.
Abstract（参考訳）: 近年のSOTAアプローチでは,環境における次のステップを決定するために,大規模言語モデル(LLM)を直接エージェントとして採用している。世界的知識と推論能力のため、LLMエージェントは強化学習(RL)に基づく従来のより小さなエージェントよりも高い性能を達成するが、LLMを頻繁に呼び出すのは遅くて高価である。 LLMをエージェントとして直接利用する代わりに、LLMの推論機能を使用して、より小さなRLエージェントが、彼らが弱いという有用なスキルを学ぶのに役立つトレーニング環境を適応的に作成できますか? 本稿では,この問題に対処するための新しいフレームワークであるEnvGenを提案する。まず LLM に,エージェントが並列に異なるタスクを素早く学習できるように訓練環境を生成するように促す。具体的には、LLMには、エージェントが学習すべきタスク記述とシミュレーターの目的が与えられ、その後、環境設定(例えば、異なる地形、エージェントに与えられたアイテムなど)のセットを生成するように要求される。次に、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。次に, LLMが生成した環境を継続的に適応させ, エージェントのパフォーマンスの形でLLMにフィードバックを提供することにより, エージェントが弱いスキルを徐々に向上させる。 Crafter および Heist 環境での総合的な実験により,EnvGen の有用性を実証する。我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。我々は、LLMがトレーニング環境に適応し、RLエージェントのより弱いスキルを時間とともに改善する方法を定性的に示す。加えて、EnvGen は LLM コールを少数(例えば、合計 4 個)しか使用していないのに対して、LLM エージェントは数千個の LLM コールを必要とするため、かなり効率的である。最後に、設計選択に関する詳細なアブレーション研究について述べる。

関連論文リスト

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
NAACL2025 Tutorial: Adaptation of Large Language Models [55.247657239126646]
LLMの適応に関するこのチュートリアルは、ジェネリックLLMの静的能力を超えたモデルの需要増加に対応するために設計されている。まず, LLMにおけるパラメトリック知識の更新に焦点を当てたパラメトリック知識適応について検討する。 2つめの適応は、半パラメトリックな知識適応であり、その目標は、外部の知識やツールをよりよく活用するために、LSMパラメータを更新することである。
論文参考訳（メタデータ） (2025-04-04T20:57:41Z)
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning [48.098838027631494]
現実の環境で活動する身体的エージェントは、曖昧で特定されていない人間の指示を解釈しなければならない。本研究では,Ask-to-Actタスクを導入し,具体的エージェントがホーム環境においてあいまいな指示を受けると,特定のオブジェクトインスタンスをフェッチしなければならない。 LLM生成報酬を用いたオンライン強化学習(RL)を用いた視覚言語行動(VLA)ポリシーとして,マルチモーダル大規模言語モデル(MLLM)を微調整する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-04-01T15:41:50Z)
Symbiotic Cooperation for Web Agents: Harnessing Complementary Strengths of Large and Small LLMs [38.86873408585195]
大規模言語モデル(LLM)を利用したWebブラウジングエージェントは、複雑なWebベースのタスクを自動化する大きな可能性を示している。既存のアプローチは通常、Web環境を探索し、軌跡データを生成するために大きなLLMに依存している。本稿では,データ合成とタスクパフォーマンスを結合した反復的フレームワークであるAgentSymbioticを提案する。
論文参考訳（メタデータ） (2025-02-11T20:41:49Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文参考訳（メタデータ） (2024-10-16T11:59:27Z)
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文参考訳（メタデータ） (2024-10-09T23:37:36Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。 LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。 LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-22T13:15:42Z)
LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文参考訳（メタデータ） (2023-11-09T18:54:28Z)
AgentTuning: Enabling Generalized Agent Abilities for LLMs [35.74502545364593]
本稿では,オープンな大規模言語モデルのエージェント能力を高めるための,シンプルで汎用的なAgentTuningを提案する。我々は、AgentInstructと一般的なドメインからのオープンソース命令を組み合わせることで、ハイブリッドなインストラクションチューニング戦略を採用する。評価の結果,AgentTuning は汎用能力を損なうことなく LLM のエージェント機能を実現することができることがわかった。
論文参考訳（メタデータ） (2023-10-19T15:19:53Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。