論文の概要: GLIDE-RL: Grounded Language Instruction through DEmonstration in RL
- arxiv url: http://arxiv.org/abs/2401.02991v1
- Date: Wed, 3 Jan 2024 17:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:36:39.166966
- Title: GLIDE-RL: Grounded Language Instruction through DEmonstration in RL
- Title(参考訳): GLIDE-RL:RLにおけるデモによる接地言語指導
- Authors: Chaitanya Kharyal and Sai Krishna Gottipati and Tanmay Kumar Sinha and
Srijita Das and Matthew E. Taylor
- Abstract要約: 自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
- 参考スコア(独自算出の注目度): 7.658523833511356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One of the final frontiers in the development of complex human - AI
collaborative systems is the ability of AI agents to comprehend the natural
language and perform tasks accordingly. However, training efficient
Reinforcement Learning (RL) agents grounded in natural language has been a
long-standing challenge due to the complexity and ambiguity of the language and
sparsity of the rewards, among other factors. Several advances in reinforcement
learning, curriculum learning, continual learning, language models have
independently contributed to effective training of grounded agents in various
environments. Leveraging these developments, we present a novel algorithm,
Grounded Language Instruction through DEmonstration in RL (GLIDE-RL) that
introduces a teacher-instructor-student curriculum learning framework for
training an RL agent capable of following natural language instructions that
can generalize to previously unseen language instructions. In this multi-agent
framework, the teacher and the student agents learn simultaneously based on the
student's current skill level. We further demonstrate the necessity for
training the student agent with not just one, but multiple teacher agents.
Experiments on a complex sparse reward environment validates the effectiveness
of our proposed approach.
- Abstract(参考訳): 複雑な人間 - AI協調システムの開発における最後のフロンティアの1つは、AIエージェントが自然言語を理解し、それに従ってタスクを実行する能力である。
しかし、自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、言語の複雑さとあいまいさ、報酬の分散など、長年にわたる課題となっている。
強化学習、カリキュラム学習、継続学習、言語モデルにおけるいくつかの進歩は、様々な環境における接地エージェントの効果的な訓練に独立して寄与している。
そこで,本研究では,新しいアルゴリズムであるrl (glide-rl) のデモを通して,自然言語命令に従うことができるrlエージェントを訓練するための教師・教師・教師・学生によるカリキュラム学習フレームワークを提案する。
このマルチエージェントフレームワークでは、教師と生徒エージェントが生徒の現在のスキルレベルに基づいて同時に学習する。
さらに,生徒エージェントを1人だけでなく複数の教師エージェントで訓練する必要性を実証する。
複雑なスパース報酬環境の実験は,提案手法の有効性を検証する。
関連論文リスト
- Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。
タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。
本稿では,強化学習における言語入力の種類について検討する。
論文 参考訳(メタデータ) (2024-10-31T17:59:52Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Progressively Efficient Learning [58.6490456517954]
我々はCEIL(Communication-Efficient Interactive Learning)という新しい学習フレームワークを開発した。
CEILは、学習者と教師がより抽象的な意図を交換することで効率的にコミュニケーションする人間のようなパターンの出現につながる。
CEILで訓練されたエージェントは、新しいタスクを素早く習得し、非階層的で階層的な模倣学習を、絶対的な成功率で最大50%、20%上回った。
論文 参考訳(メタデータ) (2023-10-13T07:52:04Z) - Collaborating with language models for embodied reasoning [30.82976922056617]
複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。
本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
論文 参考訳(メタデータ) (2023-02-01T21:26:32Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。