論文の概要: GLIDE-RL: Grounded Language Instruction through DEmonstration in RL
- arxiv url: http://arxiv.org/abs/2401.02991v1
- Date: Wed, 3 Jan 2024 17:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:36:39.166966
- Title: GLIDE-RL: Grounded Language Instruction through DEmonstration in RL
- Title(参考訳): GLIDE-RL:RLにおけるデモによる接地言語指導
- Authors: Chaitanya Kharyal and Sai Krishna Gottipati and Tanmay Kumar Sinha and
Srijita Das and Matthew E. Taylor
- Abstract要約: 自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
- 参考スコア(独自算出の注目度): 7.658523833511356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One of the final frontiers in the development of complex human - AI
collaborative systems is the ability of AI agents to comprehend the natural
language and perform tasks accordingly. However, training efficient
Reinforcement Learning (RL) agents grounded in natural language has been a
long-standing challenge due to the complexity and ambiguity of the language and
sparsity of the rewards, among other factors. Several advances in reinforcement
learning, curriculum learning, continual learning, language models have
independently contributed to effective training of grounded agents in various
environments. Leveraging these developments, we present a novel algorithm,
Grounded Language Instruction through DEmonstration in RL (GLIDE-RL) that
introduces a teacher-instructor-student curriculum learning framework for
training an RL agent capable of following natural language instructions that
can generalize to previously unseen language instructions. In this multi-agent
framework, the teacher and the student agents learn simultaneously based on the
student's current skill level. We further demonstrate the necessity for
training the student agent with not just one, but multiple teacher agents.
Experiments on a complex sparse reward environment validates the effectiveness
of our proposed approach.
- Abstract(参考訳): 複雑な人間 - AI協調システムの開発における最後のフロンティアの1つは、AIエージェントが自然言語を理解し、それに従ってタスクを実行する能力である。
しかし、自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、言語の複雑さとあいまいさ、報酬の分散など、長年にわたる課題となっている。
強化学習、カリキュラム学習、継続学習、言語モデルにおけるいくつかの進歩は、様々な環境における接地エージェントの効果的な訓練に独立して寄与している。
そこで,本研究では,新しいアルゴリズムであるrl (glide-rl) のデモを通して,自然言語命令に従うことができるrlエージェントを訓練するための教師・教師・教師・学生によるカリキュラム学習フレームワークを提案する。
このマルチエージェントフレームワークでは、教師と生徒エージェントが生徒の現在のスキルレベルに基づいて同時に学習する。
さらに,生徒エージェントを1人だけでなく複数の教師エージェントで訓練する必要性を実証する。
複雑なスパース報酬環境の実験は,提案手法の有効性を検証する。
関連論文リスト
- LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Large Language Model as a Policy Teacher for Training Reinforcement
Learning Agents [17.430124346342826]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Progressively Efficient Learning [58.6490456517954]
我々はCEIL(Communication-Efficient Interactive Learning)という新しい学習フレームワークを開発した。
CEILは、学習者と教師がより抽象的な意図を交換することで効率的にコミュニケーションする人間のようなパターンの出現につながる。
CEILで訓練されたエージェントは、新しいタスクを素早く習得し、非階層的で階層的な模倣学習を、絶対的な成功率で最大50%、20%上回った。
論文 参考訳(メタデータ) (2023-10-13T07:52:04Z) - Transforming Human-Centered AI Collaboration: Redefining Embodied Agents
Capabilities through Interactive Grounded Language Instructions [23.318236094953072]
人間の知能の適応性は目覚ましいもので、新しいタスクやマルチモーダル環境に迅速に適応することができる。
研究コミュニティはインタラクティブな「身体的エージェント」の開発を積極的に進めている
これらのエージェントは、コミュニケーションが壊れたり、指示が不明確であったりした場合に、迅速にフィードバックをリクエストする能力を持っていなければならない。
論文 参考訳(メタデータ) (2023-05-18T07:51:33Z) - Collaborating with language models for embodied reasoning [30.82976922056617]
複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
論文 参考訳(メタデータ) (2023-02-01T21:26:32Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。