論文の概要: PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping
Pixels to Rewards
- arxiv url: http://arxiv.org/abs/2007.15543v2
- Date: Thu, 19 Nov 2020 13:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 13:15:05.617887
- Title: PixL2R: Guiding Reinforcement Learning Using Natural Language by Mapping
Pixels to Rewards
- Title(参考訳): pixl2r: ピクセルから報酬へのマッピングによる自然言語による強化学習の指導
- Authors: Prasoon Goyal, Scott Niekum, Raymond J. Mooney
- Abstract要約: 本稿では,タスクの自然言語記述の自由度を考慮し,画素を報酬にマッピングするモデルを提案する。
メタワールドロボット操作領域の実験は、言語に基づく報酬が政策学習のサンプル効率を大幅に改善することを示している。
- 参考スコア(独自算出の注目度): 40.1007184209417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL), particularly in sparse reward settings, often
requires prohibitively large numbers of interactions with the environment,
thereby limiting its applicability to complex problems. To address this,
several prior approaches have used natural language to guide the agent's
exploration. However, these approaches typically operate on structured
representations of the environment, and/or assume some structure in the natural
language commands. In this work, we propose a model that directly maps pixels
to rewards, given a free-form natural language description of the task, which
can then be used for policy learning. Our experiments on the Meta-World robot
manipulation domain show that language-based rewards significantly improves the
sample efficiency of policy learning, both in sparse and dense reward settings.
- Abstract(参考訳): 強化学習(rl)、特にスパース報酬の設定では、しばしば環境との膨大なインタラクションを必要とするため、複雑な問題への適用性が制限される。
これを解決するために、いくつかの先行したアプローチが自然言語を使ってエージェントの探索をガイドしている。
しかしながら、これらのアプローチは通常、環境の構造化された表現上で動作し、自然言語コマンドで何らかの構造を仮定する。
そこで本研究では,課題の自然言語記述を自由形式として,画素を直接報酬にマッピングするモデルを提案する。
メタワールドロボット操作領域における実験では,言語に基づく報酬が,少なからぬ報酬設定と密集した報酬設定の両方において,政策学習のサンプル効率を大幅に向上させることが示された。
関連論文リスト
- Interpretable Robotic Manipulation from Language [11.207620790833271]
本稿では,操作タスクに特化して設計された,Ex-PERACTという説明可能な行動クローニングエージェントを紹介する。
トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。
提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
論文 参考訳(メタデータ) (2024-05-27T11:02:21Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Semantic Exploration from Language Abstractions and Pretrained
Representations [23.02024937564099]
効果的な探究は強化学習(RL)の課題である
意味論的に意味のある状態抽象化を用いて新規性を定義する。
自然画像キャプションデータセットに基づく視覚言語表現の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T17:08:00Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Learning Invariable Semantical Representation from Language for
Extensible Policy Generalization [4.457682773596843]
本稿では,要素ランダム化と呼ばれる意味的不変表現を学習する手法を提案する。
理論的には、ランダム化による意味論的不変表現の学習の実現可能性を証明する。
長期的課題に挑戦する実験は、我々の低レベル政策が環境変化に対するタスクに確実に一般化することを示しています。
論文 参考訳(メタデータ) (2022-01-26T08:04:27Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Inverse Reinforcement Learning with Natural Language Goals [8.972202854038382]
言語条件付きポリシーと報酬関数を学習するための新しい逆強化学習アルゴリズムを提案する。
提案アルゴリズムは,視覚に基づく自然言語によるデータセットの学習において,複数のベースラインをはるかに上回る性能を示した。
論文 参考訳(メタデータ) (2020-08-16T14:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。