論文の概要: Inverse Reinforcement Learning with Natural Language Goals
- arxiv url: http://arxiv.org/abs/2008.06924v3
- Date: Wed, 16 Dec 2020 04:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 08:56:31.681755
- Title: Inverse Reinforcement Learning with Natural Language Goals
- Title(参考訳): 自然言語目標を用いた逆強化学習
- Authors: Li Zhou and Kevin Small
- Abstract要約: 言語条件付きポリシーと報酬関数を学習するための新しい逆強化学習アルゴリズムを提案する。
提案アルゴリズムは,視覚に基づく自然言語によるデータセットの学習において,複数のベースラインをはるかに上回る性能を示した。
- 参考スコア(独自算出の注目度): 8.972202854038382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans generally use natural language to communicate task requirements to
each other. Ideally, natural language should also be usable for communicating
goals to autonomous machines (e.g., robots) to minimize friction in task
specification. However, understanding and mapping natural language goals to
sequences of states and actions is challenging. Specifically, existing work
along these lines has encountered difficulty in generalizing learned policies
to new natural language goals and environments. In this paper, we propose a
novel adversarial inverse reinforcement learning algorithm to learn a
language-conditioned policy and reward function. To improve generalization of
the learned policy and reward function, we use a variational goal generator to
relabel trajectories and sample diverse goals during training. Our algorithm
outperforms multiple baselines by a large margin on a vision-based natural
language instruction following dataset (Room-2-Room), demonstrating a promising
advance in enabling the use of natural language instructions in specifying
agent goals.
- Abstract(参考訳): 人間は一般的に自然言語を使ってタスク要求を互いに伝達する。
理想的には、自然言語はタスク仕様の摩擦を最小限に抑えるために自律機械(例えばロボット)に目標を伝えるのにも使えるべきです。
しかし、自然言語目標の理解とマッピングは、状態とアクションのシーケンスに困難である。
特に、これらのラインに沿った既存の作業は、学習したポリシーを新しい自然言語目標と環境に一般化するのに困難に直面している。
本稿では,言語条件付きポリシーと報酬関数を学習するための,逆逆強化学習アルゴリズムを提案する。
学習方針と報酬関数の一般化を改善するために,変動目標生成器を用いてトラジェクタをリラベルし,トレーニング中の多種多様な目標をサンプリングする。
提案アルゴリズムは,視覚に基づく自然言語命令に追従するデータセット(Room-2-Room)において,複数のベースラインよりも優れており,エージェントの目標を指定するために自然言語命令を使用することが期待できる。
関連論文リスト
- Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks [30.936692970187416]
汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
論文 参考訳(メタデータ) (2021-12-06T18:37:33Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping
Pixels to Rewards [40.1007184209417]
本稿では,タスクの自然言語記述の自由度を考慮し,画素を報酬にマッピングするモデルを提案する。
メタワールドロボット操作領域の実験は、言語に基づく報酬が政策学習のサンプル効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-07-30T15:50:38Z) - Language-Conditioned Goal Generation: a New Approach to Language
Grounding for RL [23.327749767424567]
現実の世界では、言語エージェントも具体的エージェントであり、それらは物理的な世界で知覚され、作用する。
本稿では,ゴールジェネレータの条件付けに言語を用いることを提案する。目標条件を考慮すれば,エージェントに対して言語に依存しない目標を生成するために,言語条件付きゴールジェネレータを訓練することができる。
論文 参考訳(メタデータ) (2020-06-12T09:54:38Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。