論文の概要: Value Guided Exploration with Sub-optimal Controllers for Learning
Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2303.03533v1
- Date: Mon, 6 Mar 2023 22:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:11:58.480581
- Title: Value Guided Exploration with Sub-optimal Controllers for Learning
Dexterous Manipulation
- Title(参考訳): 最適サブコントローラを用いたデクスタース操作学習のための価値誘導探索
- Authors: Gagan Khandate, Cameron Mehlman, Xingsheng Wei, Matei Ciocarlie
- Abstract要約: そこで本研究では,準最適制御器を用いて手動操作スキルを学習する際のサンプル効率を向上させることを目的とする。
本フレームワークは,タスクに関係のある状態空間への探索を最適に行う。
我々は,探索的リセット分布を用いることなく,手指の操作能力の習得を初めて実演する。
- 参考スコア(独自算出の注目度): 0.5399800035598186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reinforcement learning has allowed dexterous manipulation skills
with increasing complexity. Nonetheless, learning these skills in simulation
still exhibits poor sample-efficiency which stems from the fact these skills
are learned from scratch without the benefit of any domain expertise. In this
work, we aim to improve the sample-efficiency of learning dexterous in-hand
manipulation skills using sub-optimal controllers available via domain
knowledge. Our framework optimally queries the sub-optimal controllers and
guides exploration toward state-space relevant to the task thereby
demonstrating improved sample complexity. We show that our framework allows
learning from highly sub-optimal controllers and we are the first to
demonstrate learning hard-to-explore finger-gaiting in-hand manipulation skills
without the use of an exploratory reset distribution.
- Abstract(参考訳): 近年,強化学習により,複雑化を伴う巧妙な操作能力が実現されている。
それでも、これらのスキルをシミュレーションで学ぶことは、これらのスキルがドメインの専門知識の恩恵を受けずにゼロから学習されるという事実に由来する、サンプル効率の低さを示す。
本研究では,ドメイン知識を介して利用可能な準最適制御器を用いて手動操作スキルを学習する際のサンプル効率を向上させることを目的とする。
本フレームワークは,タスクに関連する状態空間への探索を最適にクエリし,サンプルの複雑さの向上を示す。
また,我々は探索的リセット分布を使わずに,手作業による操作スキルの習得を初めて実証した。
関連論文リスト
- REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。
我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-05-20T07:25:27Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Dexterous Imitation Made Easy: A Learning-Based Framework for Efficient
Dexterous Manipulation [13.135013586592585]
DIME(Dexterous Made Easy)は、デクスタラスな操作のための新しい模倣学習フレームワークである。
DIMEは、人間のオペレーターを観察し、ロボットハンドを遠隔操作するために、単一のRGBカメラしか必要としない。
シミュレーションと実ロボットベンチマークの両方において、複雑な手動操作タスクを解くためにDIMEを使用できることを示す。
論文 参考訳(メタデータ) (2022-03-24T17:58:54Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Learning of Long-Horizon Sparse-Reward Robotic Manipulator Tasks with
Base Controllers [26.807673929816026]
本稿では,1つ以上の従来型ベースコントローラを用いた長軸スパース・リワードタスクの学習手法を提案する。
提案アルゴリズムは,既存のベースコントローラを探索,価値学習,ポリシー更新の段階に組み込む。
我々の方法は、既存の産業用ロボット操作システムを利用して、より柔軟でインテリジェントなコントローラを構築する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-24T14:23:57Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Improving Performance in Reinforcement Learning by Breaking
Generalization in Neural Networks [5.273501657421096]
オンラインNNトレーニングと干渉が強化学習においてどのように相互作用するかを示す。
入力を高次元空間に再マッピングするだけで学習速度とパラメータ感度が向上することがわかった。
NNトレーニングに簡単なアプローチを提供し、実装が容易で、追加の計算をほとんど必要としない。
論文 参考訳(メタデータ) (2020-03-16T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。