論文の概要: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- arxiv url: http://arxiv.org/abs/2401.00006v3
- Date: Tue, 6 Feb 2024 16:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:37:00.577444
- Title: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- Title(参考訳): 言語と政治の双方向適応によるオープンエンドエンボディエージェントの構築
- Authors: Shaopeng Zhai, Jie Wang, Tianyi Zhang, Fuxian Huang, Qi Zhang, Ming
Zhou, Jing Hou, Yu Qiao and Yu Liu
- Abstract要約: LLM(Large Language Models)と強化学習(Reinforcement Learning, RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
既存の研究は、オープン・エンディネスの要件を満たす上で、課題に直面している。
我々は,人間の指示を計画の目標に翻訳するための事前学習 LLM の微調整と,意思決定の方針としての目標条件付きトレーニングの2段階からなる協調学習フレームワーク OpenPAL を提案する。
- 参考スコア(独自算出の注目度): 40.82919989450566
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Building embodied agents on integrating Large Language Models (LLMs) and
Reinforcement Learning (RL) have revolutionized human-AI interaction:
researchers can now leverage language instructions to plan decision-making for
open-ended tasks. However, existing research faces challenges in meeting the
requirement of open-endedness. They typically either train LLM/RL models to
adapt to a fixed counterpart, limiting exploration of novel skills and
hindering the efficacy of human-AI interaction. To this end, we present
OpenPAL, a co-training framework comprising two stages: (1) fine-tuning a
pre-trained LLM to translate human instructions into goals for planning, and
goal-conditioned training a policy for decision-making; (2) co-training to
align the LLM and policy, achieving instruction open-endedness. We conducted
experiments using Contra, an open-ended FPS game, demonstrating that an agent
trained with OpenPAL not only comprehends arbitrary instructions but also
exhibits efficient execution. These results suggest that OpenPAL holds the
potential to construct open-ended embodied agents in practical scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)と強化学習(RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
しかし、既存の研究は、開放性の必要性を満たすための課題に直面している。
通常、LLM/RLモデルをトレーニングして、固定されたモデルに適応させ、新しいスキルの探索を制限し、人間とAIの相互作用の有効性を妨げる。
この目的のために,(1) 事前学習したLDMを計画の目標に翻訳するための微調整,(2) 意思決定の方針を目標に訓練すること,(2) LLM と方針を調整し,オープンエンドネスを達成すること,の2段階からなる協調学習フレームワークである OpenPAL を提案する。
オープンエンドのfpsゲームであるcontraを用いて実験を行い,openpalでトレーニングしたエージェントが任意の命令を理解できるだけでなく,実行効率も高いことを示した。
これらの結果から,OpenPALは,実践シナリオにおいてオープンエンドなエンボディエージェントを構築する可能性を持っていることが示唆された。
関連論文リスト
- From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:44:32Z) - GLIDE-RL: Grounded Language Instruction through DEmonstration in RL [7.658523833511356]
自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
論文 参考訳(メタデータ) (2024-01-03T17:32:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Enhancing Pipeline-Based Conversational Agents with Large Language
Models [0.0]
本稿では,大規模言語モデル(LLM)に基づくエージェントの2つのフェーズにおける機能について検討する。
LLMをパイプラインベースのエージェントに統合するハイブリッドアプローチでは、エージェントの構築と実行の時間とコストを削減できる。
論文 参考訳(メタデータ) (2023-09-07T14:43:17Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。