論文の概要: Training Transition Policies via Distribution Matching for Complex Tasks
- arxiv url: http://arxiv.org/abs/2110.04357v1
- Date: Fri, 8 Oct 2021 19:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:21:54.517408
- Title: Training Transition Policies via Distribution Matching for Complex Tasks
- Title(参考訳): 複雑なタスクに対する分散マッチングによるトランジッションポリシのトレーニング
- Authors: Ju-Seung Byun, Andrew Perrault
- Abstract要約: 階層的強化学習は、複雑な課題を解決するための単純なタスクに対して、低レベルのポリシーを活用することを目指している。
我々は,次の政策が期待するものに合致する状態と行動の分布を生み出すことによって,下級政策を円滑に結び付ける移行政策を導入する。
従来の手法よりも成功率の高い下級政策を円滑に結び付けることを示す。
- 参考スコア(独自算出の注目度): 7.310043452300736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans decompose novel complex tasks into simpler ones to exploit previously
learned skills. Analogously, hierarchical reinforcement learning seeks to
leverage lower-level policies for simple tasks to solve complex ones. However,
because each lower-level policy induces a different distribution of states,
transitioning from one lower-level policy to another may fail due to an
unexpected starting state. We introduce transition policies that smoothly
connect lower-level policies by producing a distribution of states and actions
that matches what is expected by the next policy. Training transition policies
is challenging because the natural reward signal -- whether the next policy can
execute its subtask successfully -- is sparse. By training transition policies
via adversarial inverse reinforcement learning to match the distribution of
expected states and actions, we avoid relying on task-based reward. To further
improve performance, we use deep Q-learning with a binary action space to
determine when to switch from a transition policy to the next pre-trained
policy, using the success or failure of the next subtask as the reward.
Although the reward is still sparse, the problem is less severe due to the
simple binary action space. We demonstrate our method on continuous bipedal
locomotion and arm manipulation tasks that require diverse skills. We show that
it smoothly connects the lower-level policies, achieving higher success rates
than previous methods that search for successful trajectories based on a reward
function, but do not match the state distribution.
- Abstract(参考訳): 人間は、新しい複雑なタスクをより単純なタスクに分解して、以前に学んだスキルを活用する。
同様に、階層的強化学習は、複雑な問題を解くための単純なタスクのための低レベルのポリシーを活用しようとする。
しかし、それぞれの下級政策が異なる状態分布を誘導するため、下級政策から別の政策への移行は予期せぬ開始状態のために失敗する可能性がある。
我々は,次の政策が期待するものに合致する状態と行動の分布を生み出すことによって,下級政策を円滑に結び付ける移行政策を導入する。
移行政策の訓練は、次の政策がそのサブタスクをうまく実行できるかどうかという自然な報酬信号が不足しているため、難しい。
予測状態と行動の分布に合わせるために、逆逆強化学習による移行政策を訓練することにより、タスクベースの報酬に頼ることは避ける。
さらに性能向上のために,二元的行動空間を持つ深層Q-ラーニングを用いて,次のサブタスクの成功や失敗を報酬として,移行方針から次の事前学習方針への切り替え時期を決定する。
報酬はまだ疎いが、単純な二分作用空間のため問題はそれほど深刻ではない。
本手法は,多様なスキルを必要とする連続二足歩行と腕操作の課題について実証する。
提案手法は,報酬関数に基づくトラジェクタを探索する従来の手法よりも高い成功率を達成するために,低レベルのポリシをスムーズに接続し,状態分布と一致しないことを示す。
関連論文リスト
- Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-11-15T18:59:03Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。