論文の概要: Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning
for Robotics
- arxiv url: http://arxiv.org/abs/2204.04308v1
- Date: Fri, 8 Apr 2022 22:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 13:10:25.220432
- Title: Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning
for Robotics
- Title(参考訳): ロボットのための多目的強化学習における接地後見指導
- Authors: Frank R\"oder, Manfred Eppe and Stefan Wermter
- Abstract要約: 本稿では,自然言語の目標表現に対するスパース報酬を用いたロボット強化学習に焦点を当てた。
まず,専門家のフィードバックを生かした後向きの指示再生機構を提案する。
次に,言語的後見命令を生成するセク2seqモデルを提案する。
- 参考スコア(独自算出の注目度): 14.863872352905629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on robotic reinforcement learning with sparse rewards for
natural language goal representations. An open problem is the
sample-inefficiency that stems from the compositionality of natural language,
and from the grounding of language in sensory data and actions. We address
these issues with three contributions. We first present a mechanism for
hindsight instruction replay utilizing expert feedback. Second, we propose a
seq2seq model to generate linguistic hindsight instructions. Finally, we
present a novel class of language-focused learning tasks. We show that
hindsight instructions improve the learning performance, as expected. In
addition, we also provide an unexpected result: We show that the learning
performance of our agent can be improved by one third if, in a sense, the agent
learns to talk to itself in a self-supervised manner. We achieve this by
learning to generate linguistic instructions that would have been appropriate
as a natural language goal for an originally unintended behavior. Our results
indicate that the performance gain increases with the task-complexity.
- Abstract(参考訳): 本稿では,自然言語目標表現に対するスパース報酬を用いたロボット強化学習に着目した。
オープンな問題は、自然言語の合成性や、知覚データや行動における言語の基礎から生じるサンプル非効率である。
我々はこれらの問題を3つの貢献で解決する。
まず,エキスパートフィードバックを利用した後見指導リプレイのメカニズムを提案する。
次に,言語的後見命令を生成するセク2seqモデルを提案する。
最後に,新しい言語指向学習タスクのクラスを提案する。
提案手法は,学習性能が期待どおりに向上することを示す。
さらに, エージェントの学習性能が3分の1向上できることを, ある意味, エージェントが自己監督的な方法で自己と対話することを学習した場合に示す。
我々は、本来意図しない行動に対する自然言語の目的として適切な言語命令を生成することを学ぶことでこれを達成した。
その結果,タスク複雑度によって性能が向上することが示唆された。
関連論文リスト
- Punctuation Restoration Improves Structure Understanding without
Supervision [6.4736137270915215]
学習目的としての句読点復元は,構造関連タスクにおける内外分布性能を向上させることを示す。
句読解は、構造理解を改善し、自然言語のより堅牢な構造認識表現を得ることができる効果的な学習目的である。
論文 参考訳(メタデータ) (2024-02-13T11:22:52Z) - Is Feedback All You Need? Leveraging Natural Language Feedback in
Goal-Conditioned Reinforcement Learning [54.31495290436766]
我々はBabyAIを拡張し、環境力学と目標条件の成功から言語フィードバックを自動的に生成する。
我々は、この付加信号を利用するために、決定変換器アーキテクチャを変更する。
言語フィードバックによるトレーニングは, エージェントの一般化性能を向上させること, あるいは, 目標記述に代えて行うことが確認された。
論文 参考訳(メタデータ) (2023-12-07T22:33:34Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - How to talk so your robot will learn: Instructions, descriptions, and
pragmatics [14.289220844201695]
我々は、人間が行動よりも好みを伝達する方法を研究する。
従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。
以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2022-06-16T01:33:38Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Learning Rewards from Linguistic Feedback [30.30912759796109]
人工エージェントの学習信号として,制約のない自然言語フィードバックを探索する。
感情に基づく「リテラル」と「実用的」の3つのモデルと、潜在報酬を予測するためにエンドツーエンドにトレーニングされた推論ネットワークを実装した。
論文 参考訳(メタデータ) (2020-09-30T14:51:00Z) - Inverse Reinforcement Learning with Natural Language Goals [8.972202854038382]
言語条件付きポリシーと報酬関数を学習するための新しい逆強化学習アルゴリズムを提案する。
提案アルゴリズムは,視覚に基づく自然言語によるデータセットの学習において,複数のベースラインをはるかに上回る性能を示した。
論文 参考訳(メタデータ) (2020-08-16T14:43:49Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。