論文の概要: Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text
- arxiv url: http://arxiv.org/abs/2005.09382v1
- Date: Tue, 19 May 2020 12:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:57:53.084118
- Title: Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text
- Title(参考訳): テキストからの伝達学習による深層強化学習によるヒューマンインストラクション追従
- Authors: Felix Hill, Sona Mokra, Nathaniel Wong, Tim Harley
- Abstract要約: 近年の研究では、ニューラルネットワークベースのエージェントが強化学習によって訓練され、シミュレートされた世界で言語のようなコマンドを実行することが説明されている。
本稿では,人間の指示に頑健な深層RLを用いた指示追従エージェントの訓練方法を提案する。
- 参考スコア(独自算出の注目度): 12.88819706338837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has described neural-network-based agents that are trained with
reinforcement learning (RL) to execute language-like commands in simulated
worlds, as a step towards an intelligent agent or robot that can be instructed
by human users. However, the optimisation of multi-goal motor policies via deep
RL from scratch requires many episodes of experience. Consequently,
instruction-following with deep RL typically involves language generated from
templates (by an environment simulator), which does not reflect the varied or
ambiguous expressions of real users. Here, we propose a conceptually simple
method for training instruction-following agents with deep RL that are robust
to natural human instructions. By applying our method with a state-of-the-art
pre-trained text-based language model (BERT), on tasks requiring agents to
identify and position everyday objects relative to other objects in a
naturalistic 3D simulated room, we demonstrate substantially-above-chance
zero-shot transfer from synthetic template commands to natural instructions
given by humans. Our approach is a general recipe for training any deep
RL-based system to interface with human users, and bridges the gap between two
research directions of notable recent success: agent-centric motor behavior and
text-based representation learning.
- Abstract(参考訳): 近年の研究では、人間によって指示されるインテリジェントエージェントやロボットへのステップとして、強化学習(RL)で訓練されたニューラルネットワークベースのエージェントについて、シミュレートされた世界で言語のようなコマンドを実行する方法が紹介されている。
しかし、ディープrlによるマルチゴールモーター政策の最適化には、多くの経験を必要とする。
したがって、deep rlによる命令追跡は、通常、実際のユーザの多種多様な表現やあいまいな表現を反映しないテンプレート(環境シミュレータによる)から生成される言語を伴う。
本稿では,人間の自然な指示にロバストな深層rlを用いた命令追従エージェントの訓練手法を提案する。
本手法を最先端のテキストベース言語モデル (BERT) を用いて適用することにより, エージェントが自然主義的な3Dシミュレーション室内において, 日常の物体を識別・位置決めする必要があるタスクに対して, 合成テンプレートコマンドから人間の指示する自然な指示へのほぼ短いゼロショット転送を実証する。
我々のアプローチは、人間と対話するための深いRLベースのシステムを訓練するための一般的なレシピであり、エージェント中心の運動行動とテキストベースの表現学習という2つの研究方向のギャップを埋めるものである。
関連論文リスト
- Vision-Language Models Provide Promptable Representations for
Reinforcement Learning [73.63538447814504]
人間は、バックグラウンドワールドの知識を活用することで、素早く新しい行動を学ぶことができる。
視覚言語モデルに符号化された多量の一般および索引可能な世界知識を利用する新しい手法を提案する。
本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Using Natural Language and Program Abstractions to Instill Human
Inductive Biases in Machines [27.79626958016208]
メタラーニングによって訓練されたエージェントは、人間とは全く異なる戦略をとる可能性がある。
これらのエージェントを自然言語のタスク記述から表現を予測し、そのようなタスクを生成するために誘導されるプログラムから学習することで、人間のような帰納的バイアスに導かれることを示す。
論文 参考訳(メタデータ) (2022-05-23T18:17:58Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。