論文の概要: Weakly-Supervised Reinforcement Learning for Controllable Behavior
- arxiv url: http://arxiv.org/abs/2004.02860v2
- Date: Wed, 18 Nov 2020 02:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:10:10.143182
- Title: Weakly-Supervised Reinforcement Learning for Controllable Behavior
- Title(参考訳): 制御可能行動のための弱改良強化学習
- Authors: Lisa Lee, Benjamin Eysenbach, Ruslan Salakhutdinov, Shixiang Shane Gu,
Chelsea Finn
- Abstract要約: 強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
- 参考スコア(独自算出の注目度): 126.04932929741538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is a powerful framework for learning to take
actions to solve tasks. However, in many settings, an agent must winnow down
the inconceivably large space of all possible tasks to the single task that it
is currently being asked to solve. Can we instead constrain the space of tasks
to those that are semantically meaningful? In this work, we introduce a
framework for using weak supervision to automatically disentangle this
semantically meaningful subspace of tasks from the enormous space of
nonsensical "chaff" tasks. We show that this learned subspace enables efficient
exploration and provides a representation that captures distance between
states. On a variety of challenging, vision-based continuous control problems,
our approach leads to substantial performance gains, particularly as the
complexity of the environment grows.
- Abstract(参考訳): 強化学習(rl)は、タスクを解決するためのアクションを取るための強力なフレームワークである。
しかし、多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
代わりに、意味的に意味のあるタスクにタスクの空間を制限できるだろうか?
本稿では,このタスクの意味的に意味のある部分空間を,無意味な"チャフ"タスクの巨大な空間から自動的に分離する,弱い監督を用いる枠組みを提案する。
この学習された部分空間は効率的な探索を可能にし、状態間の距離を捉える表現を提供する。
さまざまな困難でビジョンに基づく継続的制御の問題において、我々のアプローチは、特に環境の複雑さが増すにつれて、実質的なパフォーマンス向上につながります。
関連論文リスト
- Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation [0.0]
TAPD(Task-Agnostic Policy Distillation)フレームワークが導入されている。
本稿では,継続学習の問題に対処する。
タスク非依存の蒸留知識を利用することで、下流タスクをより効率的に解決することができる。
論文 参考訳(メタデータ) (2024-11-25T16:18:39Z) - Hierarchical reinforcement learning with natural language subgoals [26.725710518119044]
我々は、人間による課題解決のデータを用いて、3Dエンボディ環境での長いタスクのセットの目標空間をソフトに監督する。
これは2つの利点がある: 第一に、人間に優しい参加者からこのデータを生成するのは簡単である; 第二に、人間に関連するタスクにおいて、幅広いサブゴールを表現するのに十分な柔軟性がある。
提案手法は,これらのタスクにおいて専門家の振る舞いをクローンするエージェントと,この教師付きサブゴール空間を使わずに,HRLをスクラッチから実行するエージェントよりも優れる。
論文 参考訳(メタデータ) (2023-09-20T18:03:04Z) - Towards an Interpretable Hierarchical Agent Framework using Semantic
Goals [6.677083312952721]
本研究は、計画と意味的目標を指向した強化学習を組み合わせることで、解釈可能な階層型エージェントフレームワークを導入する。
我々は,ロボットブロック操作タスクの枠組みを評価し,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-16T02:04:13Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Wish you were here: Hindsight Goal Selection for long-horizon dexterous
manipulation [14.901636098553848]
スパース報酬をサンプル効率のよい方法で解くことは、現代の強化学習の課題である。
既存の戦略はタスク非依存のゴール分布に基づいて検討されており、これは長軸タスクの解を非現実的なものにすることができる。
実験を成功させた少数の事例によって示されるタスク固有の分布に沿った探索をガイドするために、後視リラベリング機構を拡張した。
論文 参考訳(メタデータ) (2021-12-01T16:12:32Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - Solving Compositional Reinforcement Learning Problems via Task Reduction [18.120631058025406]
構成強化学習の課題を解決するための新しい学習パラダイムであるSelf-Imitation via reduction (SIR)を提案する。
SIRは、タスクの削減と自己模倣の2つのコアアイデアに基づいています。
実験の結果、sirは様々な難易度の低い連続制御問題の学習を著しく加速し改善できることが示されている。
論文 参考訳(メタデータ) (2021-03-13T03:26:33Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。