Fugu-MT 論文翻訳(概要): GLIDE-RL: Grounded Language Instruction through DEmonstration in RL

論文の概要: GLIDE-RL: Grounded Language Instruction through DEmonstration in RL

arxiv url: http://arxiv.org/abs/2401.02991v1
Date: Wed, 3 Jan 2024 17:32:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 09:36:39.166966
Title: GLIDE-RL: Grounded Language Instruction through DEmonstration in RL
Title（参考訳）: GLIDE-RL:RLにおけるデモによる接地言語指導
Authors: Chaitanya Kharyal and Sai Krishna Gottipati and Tanmay Kumar Sinha and Srijita Das and Matthew E. Taylor
Abstract要約: 自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
参考スコア（独自算出の注目度）: 7.658523833511356
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: One of the final frontiers in the development of complex human - AI collaborative systems is the ability of AI agents to comprehend the natural language and perform tasks accordingly. However, training efficient Reinforcement Learning (RL) agents grounded in natural language has been a long-standing challenge due to the complexity and ambiguity of the language and sparsity of the rewards, among other factors. Several advances in reinforcement learning, curriculum learning, continual learning, language models have independently contributed to effective training of grounded agents in various environments. Leveraging these developments, we present a novel algorithm, Grounded Language Instruction through DEmonstration in RL (GLIDE-RL) that introduces a teacher-instructor-student curriculum learning framework for training an RL agent capable of following natural language instructions that can generalize to previously unseen language instructions. In this multi-agent framework, the teacher and the student agents learn simultaneously based on the student's current skill level. We further demonstrate the necessity for training the student agent with not just one, but multiple teacher agents. Experiments on a complex sparse reward environment validates the effectiveness of our proposed approach.
Abstract（参考訳）: 複雑な人間 - AI協調システムの開発における最後のフロンティアの1つは、AIエージェントが自然言語を理解し、それに従ってタスクを実行する能力である。しかし、自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、言語の複雑さとあいまいさ、報酬の分散など、長年にわたる課題となっている。強化学習、カリキュラム学習、継続学習、言語モデルにおけるいくつかの進歩は、様々な環境における接地エージェントの効果的な訓練に独立して寄与している。そこで,本研究では,新しいアルゴリズムであるrl (glide-rl) のデモを通して,自然言語命令に従うことができるrlエージェントを訓練するための教師・教師・教師・学生によるカリキュラム学習フレームワークを提案する。このマルチエージェントフレームワークでは、教師と生徒エージェントが生徒の現在のスキルレベルに基づいて同時に学習する。さらに,生徒エージェントを1人だけでなく複数の教師エージェントで訓練する必要性を実証する。複雑なスパース報酬環境の実験は,提案手法の有効性を検証する。

関連論文リスト

Position: LLMs Can be Good Tutors in Foreign Language Education [87.88557755407815]
我々は、外国語教育(FLE)において、大きな言語モデル(LLM)が効果的な家庭教師として機能する可能性を主張する。具体的には、(1)データエンハンサーとして、(2)学習教材の作成や学生シミュレーションとして、(2)タスク予測器として、学習者の評価や学習経路の最適化に、(3)エージェントとして、そして、パーソナライズされた包括的教育を可能にする3つの重要な役割を果たせる。
論文参考訳（メタデータ） (2025-02-08T06:48:49Z)
MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.17724089381056]
MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文参考訳（メタデータ） (2024-12-11T16:59:31Z)
Natural Language Reinforcement Learning [27.816215336574803]
自然言語強化学習(NLRL)は、RLの原則を自然言語に拡張するフレームワークである。 NLRLの中心はLVF(Language Value Function)であり、解釈可能な言語的物語としての価値を再定義する。 NLRLは、教師なし環境相互作用を通じて、RLライクなポリシーと価値トレーニングを実現するために実践的に実装できる。
論文参考訳（メタデータ） (2024-11-21T15:57:02Z)
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。本稿では,強化学習における言語入力の種類について検討する。
論文参考訳（メタデータ） (2024-10-31T17:59:52Z)
Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文参考訳（メタデータ） (2024-06-26T17:59:18Z)
Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。 PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。 2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文参考訳（メタデータ） (2024-05-07T08:40:21Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。 LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。 LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-22T13:15:42Z)
Accelerating Reinforcement Learning of Robotic Manipulations via Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。 RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。学習効率と成功率の両方でベースラインを上回ります。
論文参考訳（メタデータ） (2023-11-04T11:21:38Z)
Progressively Efficient Learning [58.6490456517954]
我々はCEIL(Communication-Efficient Interactive Learning)という新しい学習フレームワークを開発した。 CEILは、学習者と教師がより抽象的な意図を交換することで効率的にコミュニケーションする人間のようなパターンの出現につながる。 CEILで訓練されたエージェントは、新しいタスクを素早く習得し、非階層的で階層的な模倣学習を、絶対的な成功率で最大50%、20%上回った。
論文参考訳（メタデータ） (2023-10-13T07:52:04Z)
Collaborating with language models for embodied reasoning [30.82976922056617]
複雑で曖昧な環境での推論は、強化学習(RL)エージェントの重要な目標である。本稿では,ゼロショットを一般化し,障害事例を調査するシステムの能力を検証し,推論を必要とする一連のタスクを提案する。
論文参考訳（メタデータ） (2023-02-01T21:26:32Z)
Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文参考訳（メタデータ） (2022-09-30T19:56:04Z)
Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。 LLPは長距離強化学習の課題を解くことができる。これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文参考訳（メタデータ） (2021-04-15T03:42:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。