論文の概要: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- arxiv url: http://arxiv.org/abs/2401.00006v3
- Date: Tue, 6 Feb 2024 16:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-07 11:37:00.577444
- Title: Building Open-Ended Embodied Agent via Language-Policy Bidirectional
Adaptation
- Title(参考訳): 言語と政治の双方向適応によるオープンエンドエンボディエージェントの構築
- Authors: Shaopeng Zhai, Jie Wang, Tianyi Zhang, Fuxian Huang, Qi Zhang, Ming
Zhou, Jing Hou, Yu Qiao and Yu Liu
- Abstract要約: LLM(Large Language Models)と強化学習(Reinforcement Learning, RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
既存の研究は、オープン・エンディネスの要件を満たす上で、課題に直面している。
我々は,人間の指示を計画の目標に翻訳するための事前学習 LLM の微調整と,意思決定の方針としての目標条件付きトレーニングの2段階からなる協調学習フレームワーク OpenPAL を提案する。
- 参考スコア(独自算出の注目度): 40.82919989450566
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Building embodied agents on integrating Large Language Models (LLMs) and
Reinforcement Learning (RL) have revolutionized human-AI interaction:
researchers can now leverage language instructions to plan decision-making for
open-ended tasks. However, existing research faces challenges in meeting the
requirement of open-endedness. They typically either train LLM/RL models to
adapt to a fixed counterpart, limiting exploration of novel skills and
hindering the efficacy of human-AI interaction. To this end, we present
OpenPAL, a co-training framework comprising two stages: (1) fine-tuning a
pre-trained LLM to translate human instructions into goals for planning, and
goal-conditioned training a policy for decision-making; (2) co-training to
align the LLM and policy, achieving instruction open-endedness. We conducted
experiments using Contra, an open-ended FPS game, demonstrating that an agent
trained with OpenPAL not only comprehends arbitrary instructions but also
exhibits efficient execution. These results suggest that OpenPAL holds the
potential to construct open-ended embodied agents in practical scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)と強化学習(RL)を統合するための具体的エージェントの構築は、人間とAIのインタラクションに革命をもたらした。
しかし、既存の研究は、開放性の必要性を満たすための課題に直面している。
通常、LLM/RLモデルをトレーニングして、固定されたモデルに適応させ、新しいスキルの探索を制限し、人間とAIの相互作用の有効性を妨げる。
この目的のために,(1) 事前学習したLDMを計画の目標に翻訳するための微調整,(2) 意思決定の方針を目標に訓練すること,(2) LLM と方針を調整し,オープンエンドネスを達成すること,の2段階からなる協調学習フレームワークである OpenPAL を提案する。
オープンエンドのfpsゲームであるcontraを用いて実験を行い,openpalでトレーニングしたエージェントが任意の命令を理解できるだけでなく,実行効率も高いことを示した。
これらの結果から,OpenPALは,実践シナリオにおいてオープンエンドなエンボディエージェントを構築する可能性を持っていることが示唆された。
関連論文リスト
- Beyond Syntax: Action Semantics Learning for App Agents [60.56331102288794]
アクションセマンティックス学習(ASL、Action Semantics Learning)は、学習目的が真理行動の意味を捉える学習フレームワークである。
ASLは既存のメソッドよりもApp Agentの精度と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2025-06-21T12:08:19Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Continuous Learning Conversational AI: A Personalized Agent Framework via A2C Reinforcement Learning [0.0]
本稿では,A2C強化学習を用いて実装したCLCA(Continuous Learning Conversational AI)アプローチを提案する。
我々は,Large Language Models (LLMs) によって生成された販売対話を模擬して,A2Cエージェントを訓練する。
このエージェントは、個人化のための会話戦略を最適化し、エンゲージメントと価値の提供に集中する。
論文 参考訳(メタデータ) (2025-02-18T14:05:59Z) - PIANIST: Learning Partially Observable World Models with LLMs for Multi-Agent Decision Making [30.46033960436517]
本研究では,世界モデルを7つの直感的なコンポーネントに分解するフレームワークPIANISTを提案する。
提案手法はエージェントの計画と意思決定のスキルに挑戦する2つの異なるゲームでうまく機能することを示す。
論文 参考訳(メタデータ) (2024-11-24T22:36:34Z) - Automating Knowledge Discovery from Scientific Literature via LLMs: A Dual-Agent Approach with Progressive Ontology Prompting [59.97247234955861]
LLM-Duoという,プログレッシブプロンプトアルゴリズムとデュアルエージェントシステムを組み合わせた,大規模言語モデル(LLM)に基づく新しいフレームワークを提案する。
言語治療領域における64,177論文からの2,421件の介入を同定した。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - Personalized Wireless Federated Learning for Large Language Models [75.22457544349668]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
無線ネットワークへの展開は、プライバシとセキュリティ保護機構の欠如など、依然として課題に直面している。
通信オーバーヘッドの少ない2つのパーソナライズされた無線フェデレーションファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T02:30:21Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:44:32Z) - GLIDE-RL: Grounded Language Instruction through DEmonstration in RL [7.658523833511356]
自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
論文 参考訳(メタデータ) (2024-01-03T17:32:13Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。