論文の概要: Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization
- arxiv url: http://arxiv.org/abs/2111.07999v1
- Date: Mon, 15 Nov 2021 18:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 15:16:01.201157
- Title: Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization
- Title(参考訳): 端末状態規則化による長軸ロボットマニピュレーションの逆スキルチェイン
- Authors: Youngwoon Lee and Joseph J. Lim and Anima Anandkumar and Yuke Zhu
- Abstract要約: 過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
- 参考スコア(独自算出の注目度): 65.09725599705493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill chaining is a promising approach for synthesizing complex behaviors by
sequentially combining previously learned skills. Yet, a naive composition of
skills fails when a policy encounters a starting state never seen during its
training. For successful skill chaining, prior approaches attempt to widen the
policy's starting state distribution. However, these approaches require larger
state distributions to be covered as more policies are sequenced, and thus are
limited to short skill sequences. In this paper, we propose to chain multiple
policies without excessively large initial state distributions by regularizing
the terminal state distributions in an adversarial learning framework. We
evaluate our approach on two complex long-horizon manipulation tasks of
furniture assembly. Our results have shown that our method establishes the
first model-free reinforcement learning algorithm to solve these tasks; whereas
prior skill chaining approaches fail. The code and videos are available at
https://clvrai.com/skill-chaining
- Abstract(参考訳): スキル連鎖は、事前学習されたスキルを順次組み合わせて複雑な振る舞いを合成する有望なアプローチである。
しかし、スキルの素直な構成は、トレーニング中に見つからない開始状態にポリシーが遭遇した場合に失敗する。
スキルチェーンの成功のために、事前のアプローチはポリシーの開始状態の分布を拡大しようとする。
しかしながら、これらのアプローチでは、より多くのポリシーがシーケンスされるにつれて、より大きな状態分布をカバーする必要があるため、短いスキルシーケンスに制限される。
本稿では,逆学習フレームワークにおける端末状態分布を正規化することにより,過大な初期状態分布を伴わない複数のポリシーの連鎖を提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを最初に確立するが,先行技術連鎖手法は失敗する。
コードとビデオはhttps://clvrai.com/skill-chainingで入手できる。
関連論文リスト
- Subwords as Skills: Tokenization for Sparse-Reward Reinforcement Learning [0.8488322025656236]
これらの問題に対処するために設計されたメソッドの1つのクラスは、同じドメインで収集されたインタラクションデータからしばしばスキルと呼ばれる時間的に拡張されたアクションを形成する。
まず、クラスタリングによってアクション空間を識別し、次に、自然言語処理から借用したトークン化技術を利用して、時間的に拡張されたアクションを生成する。
論文 参考訳(メタデータ) (2023-09-08T17:37:05Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Chaining Value Functions for Off-Policy Learning [22.54793586116019]
本稿では,建設によって収束する非政治予測アルゴリズムの新たなファミリについて論じる。
提案手法は収束し、逆鍵行列の反復分解に対応することを証明した。
Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,好意的な結果が得られた。
論文 参考訳(メタデータ) (2022-01-17T15:26:47Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - Training Transition Policies via Distribution Matching for Complex Tasks [7.310043452300736]
階層的強化学習は、複雑な課題を解決するための単純なタスクに対して、低レベルのポリシーを活用することを目指している。
我々は,次の政策が期待するものに合致する状態と行動の分布を生み出すことによって,下級政策を円滑に結び付ける移行政策を導入する。
従来の手法よりも成功率の高い下級政策を円滑に結び付けることを示す。
論文 参考訳(メタデータ) (2021-10-08T19:57:37Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Same State, Different Task: Continual Reinforcement Learning without
Interference [21.560701568064864]
連続学習(CL)における主な課題は破滅的な忘れことであり、これは新しいタスクを学ぶ際に、以前にマスターされたタスクのパフォーマンスが低下したときに生じる。
干渉の有無で共有再生バッファを持つ単一ニューラルネットワーク予測器をベースとした既存のCL法が失敗することを示す。
本稿では,この課題に対処する簡単な方法であるOWLを提案する。OWLは,共有特徴抽出層を用いて因子化ポリシーを学習するが,それぞれが新しいタスクを専門とする分離ヘッドを学習する。
論文 参考訳(メタデータ) (2021-06-05T17:55:10Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。