論文の概要: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- arxiv url: http://arxiv.org/abs/2401.00006v1
- Date: Tue, 12 Dec 2023 11:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:24:19.780210
- Title: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- Title(参考訳): 言語と政治の双方向適応によるオープンエンドエンボディエージェントの構築
- Authors: Shaopeng Zhai, Jie Wang, Tianyi Zhang, Fuxian Huang, Qi Zhang, Ming
Zhou, Jing Hou and Yu Liu
- Abstract要約: オープンエンド学習エージェントの構築には、事前学習言語モデル(LLM)と強化学習(RL)アプローチの課題が含まれる。
我々は,LLMとGRLと連携して任意の人間の指示を解釈できるオープンエンドエージェントを構築するための協調学習フレームワークであるOpenContraを提案する。
複雑で広大な目標空間を持つバトルロイヤルFPSゲームであるContraで実験を行う。
- 参考スコア(独自算出の注目度): 27.499271913550835
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Building open-ended learning agents involves challenges in pre-trained
language model (LLM) and reinforcement learning (RL) approaches. LLMs struggle
with context-specific real-time interactions, while RL methods face efficiency
issues for exploration. To this end, we propose OpenContra, a co-training
framework that cooperates LLMs and GRL to construct an open-ended agent capable
of comprehending arbitrary human instructions. The implementation comprises two
stages: (1) fine-tuning an LLM to translate human instructions into structured
goals, and curriculum training a goal-conditioned RL policy to execute
arbitrary goals; (2) collaborative training to make the LLM and RL policy learn
to adapt each, achieving open-endedness on instruction space. We conduct
experiments on Contra, a battle royale FPS game with a complex and vast goal
space. The results show that an agent trained with OpenContra comprehends
arbitrary human instructions and completes goals with a high completion ratio,
which proves that OpenContra may be the first practical solution for
constructing open-ended embodied agents.
- Abstract(参考訳): オープンエンド学習エージェントの構築には、事前学習言語モデル(LLM)と強化学習(RL)アプローチの課題が含まれる。
LLMはコンテキスト固有のリアルタイムインタラクションに苦しむ一方、RL法は探索の効率性の問題に直面している。
そこで我々は,LLMとGRLと連携して,任意の指示を解釈できるオープンエンドエージェントを構築するための協調学習フレームワークOpenContraを提案する。
この実装は、(1)人間の指示を構造化された目標に翻訳するLLMを微調整し、(2)任意の目標を達成するために目標条件付きRLポリシーを訓練し、(2)LLMとRLポリシーを互いに適応させ、指示空間にオープンディペンデンスを達成させる協調訓練を含む。
複雑で広大な目標空間を持つバトルロイヤルFPSゲームであるContraで実験を行う。
その結果、OpenContraで訓練されたエージェントは、任意の人間の指示を理解し、高い完成率で目標を達成していることが示され、OpenContraがオープンなエンボディエージェントを構築するための最初の実用的なソリューションである可能性が証明された。
関連論文リスト
- PIANIST: Learning Partially Observable World Models with LLMs for Multi-Agent Decision Making [30.46033960436517]
本研究では,世界モデルを7つの直感的なコンポーネントに分解するフレームワークPIANISTを提案する。
提案手法はエージェントの計画と意思決定のスキルに挑戦する2つの異なるゲームでうまく機能することを示す。
論文 参考訳(メタデータ) (2024-11-24T22:36:34Z) - Automating Knowledge Discovery from Scientific Literature via LLMs: A Dual-Agent Approach with Progressive Ontology Prompting [59.97247234955861]
LLM-Duoという,プログレッシブプロンプトアルゴリズムとデュアルエージェントシステムを組み合わせた,大規模言語モデル(LLM)に基づく新しいフレームワークを提案する。
言語治療領域における64,177論文からの2,421件の介入を同定した。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
無線ネットワークへの展開は、プライバシとセキュリティ保護機構の欠如など、依然として課題に直面している。
通信オーバーヘッドの少ない2つのパーソナライズされた無線フェデレーションファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:44:32Z) - GLIDE-RL: Grounded Language Instruction through DEmonstration in RL [7.658523833511356]
自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
論文 参考訳(メタデータ) (2024-01-03T17:32:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。