論文の概要: Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text
- arxiv url: http://arxiv.org/abs/2005.09382v1
- Date: Tue, 19 May 2020 12:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:57:53.084118
- Title: Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text
- Title(参考訳): テキストからの伝達学習による深層強化学習によるヒューマンインストラクション追従
- Authors: Felix Hill, Sona Mokra, Nathaniel Wong, Tim Harley
- Abstract要約: 近年の研究では、ニューラルネットワークベースのエージェントが強化学習によって訓練され、シミュレートされた世界で言語のようなコマンドを実行することが説明されている。
本稿では,人間の指示に頑健な深層RLを用いた指示追従エージェントの訓練方法を提案する。
- 参考スコア(独自算出の注目度): 12.88819706338837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has described neural-network-based agents that are trained with
reinforcement learning (RL) to execute language-like commands in simulated
worlds, as a step towards an intelligent agent or robot that can be instructed
by human users. However, the optimisation of multi-goal motor policies via deep
RL from scratch requires many episodes of experience. Consequently,
instruction-following with deep RL typically involves language generated from
templates (by an environment simulator), which does not reflect the varied or
ambiguous expressions of real users. Here, we propose a conceptually simple
method for training instruction-following agents with deep RL that are robust
to natural human instructions. By applying our method with a state-of-the-art
pre-trained text-based language model (BERT), on tasks requiring agents to
identify and position everyday objects relative to other objects in a
naturalistic 3D simulated room, we demonstrate substantially-above-chance
zero-shot transfer from synthetic template commands to natural instructions
given by humans. Our approach is a general recipe for training any deep
RL-based system to interface with human users, and bridges the gap between two
research directions of notable recent success: agent-centric motor behavior and
text-based representation learning.
- Abstract(参考訳): 近年の研究では、人間によって指示されるインテリジェントエージェントやロボットへのステップとして、強化学習(RL)で訓練されたニューラルネットワークベースのエージェントについて、シミュレートされた世界で言語のようなコマンドを実行する方法が紹介されている。
しかし、ディープrlによるマルチゴールモーター政策の最適化には、多くの経験を必要とする。
したがって、deep rlによる命令追跡は、通常、実際のユーザの多種多様な表現やあいまいな表現を反映しないテンプレート(環境シミュレータによる)から生成される言語を伴う。
本稿では,人間の自然な指示にロバストな深層rlを用いた命令追従エージェントの訓練手法を提案する。
本手法を最先端のテキストベース言語モデル (BERT) を用いて適用することにより, エージェントが自然主義的な3Dシミュレーション室内において, 日常の物体を識別・位置決めする必要があるタスクに対して, 合成テンプレートコマンドから人間の指示する自然な指示へのほぼ短いゼロショット転送を実証する。
我々のアプローチは、人間と対話するための深いRLベースのシステムを訓練するための一般的なレシピであり、エージェント中心の運動行動とテキストベースの表現学習という2つの研究方向のギャップを埋めるものである。
関連論文リスト
- Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Interpretable Robotic Manipulation from Language [11.207620790833271]
本稿では,操作タスクに特化して設計された,Ex-PERACTという説明可能な行動クローニングエージェントを紹介する。
トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。
提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
論文 参考訳(メタデータ) (2024-05-27T11:02:21Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Using Natural Language and Program Abstractions to Instill Human
Inductive Biases in Machines [27.79626958016208]
メタラーニングによって訓練されたエージェントは、人間とは全く異なる戦略をとる可能性がある。
これらのエージェントを自然言語のタスク記述から表現を予測し、そのようなタスクを生成するために誘導されるプログラムから学習することで、人間のような帰納的バイアスに導かれることを示す。
論文 参考訳(メタデータ) (2022-05-23T18:17:58Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。