論文の概要: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- arxiv url: http://arxiv.org/abs/2401.00006v3
- Date: Tue, 6 Feb 2024 16:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:37:00.577444
- Title: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- Title(参考訳): 言語と政治の双方向適応によるオープンエンドエンボディエージェントの構築
- Authors: Shaopeng Zhai, Jie Wang, Tianyi Zhang, Fuxian Huang, Qi Zhang, Ming
Zhou, Jing Hou, Yu Qiao and Yu Liu
- Abstract要約: LLM(Large Language Models)と強化学習(Reinforcement Learning, RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
既存の研究は、オープン・エンディネスの要件を満たす上で、課題に直面している。
我々は,人間の指示を計画の目標に翻訳するための事前学習 LLM の微調整と,意思決定の方針としての目標条件付きトレーニングの2段階からなる協調学習フレームワーク OpenPAL を提案する。
- 参考スコア(独自算出の注目度): 40.82919989450566
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Building embodied agents on integrating Large Language Models (LLMs) and
Reinforcement Learning (RL) have revolutionized human-AI interaction:
researchers can now leverage language instructions to plan decision-making for
open-ended tasks. However, existing research faces challenges in meeting the
requirement of open-endedness. They typically either train LLM/RL models to
adapt to a fixed counterpart, limiting exploration of novel skills and
hindering the efficacy of human-AI interaction. To this end, we present
OpenPAL, a co-training framework comprising two stages: (1) fine-tuning a
pre-trained LLM to translate human instructions into goals for planning, and
goal-conditioned training a policy for decision-making; (2) co-training to
align the LLM and policy, achieving instruction open-endedness. We conducted
experiments using Contra, an open-ended FPS game, demonstrating that an agent
trained with OpenPAL not only comprehends arbitrary instructions but also
exhibits efficient execution. These results suggest that OpenPAL holds the
potential to construct open-ended embodied agents in practical scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)と強化学習(RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
しかし、既存の研究は、開放性の必要性を満たすための課題に直面している。
通常、LLM/RLモデルをトレーニングして、固定されたモデルに適応させ、新しいスキルの探索を制限し、人間とAIの相互作用の有効性を妨げる。
この目的のために,(1) 事前学習したLDMを計画の目標に翻訳するための微調整,(2) 意思決定の方針を目標に訓練すること,(2) LLM と方針を調整し,オープンエンドネスを達成すること,の2段階からなる協調学習フレームワークである OpenPAL を提案する。
オープンエンドのfpsゲームであるcontraを用いて実験を行い,openpalでトレーニングしたエージェントが任意の命令を理解できるだけでなく,実行効率も高いことを示した。
これらの結果から,OpenPALは,実践シナリオにおいてオープンエンドなエンボディエージェントを構築する可能性を持っていることが示唆された。
関連論文リスト
- PIANIST: Learning Partially Observable World Models with LLMs for Multi-Agent Decision Making [30.46033960436517]
本研究では,世界モデルを7つの直感的なコンポーネントに分解するフレームワークPIANISTを提案する。
提案手法はエージェントの計画と意思決定のスキルに挑戦する2つの異なるゲームでうまく機能することを示す。
論文 参考訳(メタデータ) (2024-11-24T22:36:34Z) - Automating Knowledge Discovery from Scientific Literature via LLMs: A Dual-Agent Approach with Progressive Ontology Prompting [59.97247234955861]
LLM-Duoという,プログレッシブプロンプトアルゴリズムとデュアルエージェントシステムを組み合わせた,大規模言語モデル(LLM)に基づく新しいフレームワークを提案する。
言語治療領域における64,177論文からの2,421件の介入を同定した。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
無線ネットワークへの展開は、プライバシとセキュリティ保護機構の欠如など、依然として課題に直面している。
通信オーバーヘッドの少ない2つのパーソナライズされた無線フェデレーションファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:44:32Z) - GLIDE-RL: Grounded Language Instruction through DEmonstration in RL [7.658523833511356]
自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
論文 参考訳(メタデータ) (2024-01-03T17:32:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。