Fugu-MT 論文翻訳(概要): Value Guided Exploration with Sub-optimal Controllers for Learning Dexterous Manipulation

論文の概要: Value Guided Exploration with Sub-optimal Controllers for Learning Dexterous Manipulation

arxiv url: http://arxiv.org/abs/2303.03533v1
Date: Mon, 6 Mar 2023 22:39:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 17:11:58.480581
Title: Value Guided Exploration with Sub-optimal Controllers for Learning Dexterous Manipulation
Title（参考訳）: 最適サブコントローラを用いたデクスタース操作学習のための価値誘導探索
Authors: Gagan Khandate, Cameron Mehlman, Xingsheng Wei, Matei Ciocarlie
Abstract要約: そこで本研究では,準最適制御器を用いて手動操作スキルを学習する際のサンプル効率を向上させることを目的とする。本フレームワークは,タスクに関係のある状態空間への探索を最適に行う。我々は,探索的リセット分布を用いることなく,手指の操作能力の習得を初めて実演する。
参考スコア（独自算出の注目度）: 0.5399800035598186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, reinforcement learning has allowed dexterous manipulation skills with increasing complexity. Nonetheless, learning these skills in simulation still exhibits poor sample-efficiency which stems from the fact these skills are learned from scratch without the benefit of any domain expertise. In this work, we aim to improve the sample-efficiency of learning dexterous in-hand manipulation skills using sub-optimal controllers available via domain knowledge. Our framework optimally queries the sub-optimal controllers and guides exploration toward state-space relevant to the task thereby demonstrating improved sample complexity. We show that our framework allows learning from highly sub-optimal controllers and we are the first to demonstrate learning hard-to-explore finger-gaiting in-hand manipulation skills without the use of an exploratory reset distribution.
Abstract（参考訳）: 近年,強化学習により,複雑化を伴う巧妙な操作能力が実現されている。それでも、これらのスキルをシミュレーションで学ぶことは、これらのスキルがドメインの専門知識の恩恵を受けずにゼロから学習されるという事実に由来する、サンプル効率の低さを示す。本研究では,ドメイン知識を介して利用可能な準最適制御器を用いて手動操作スキルを学習する際のサンプル効率を向上させることを目的とする。本フレームワークは,タスクに関連する状態空間への探索を最適にクエリし,サンプルの複雑さの向上を示す。また,我々は探索的リセット分布を使わずに,手作業による操作スキルの習得を初めて実証した。

関連論文リスト

Accelerated Online Reinforcement Learning using Auxiliary Start State Distributions [50.44719434877687]
専門家によるデモンストレーションやシミュレータは任意の状態にリセットできる。この補助分布の選択を安全の概念を用いて通知することは、学習を著しく加速することを発見した。
論文参考訳（メタデータ） (2025-07-07T01:54:05Z)
Composing Dextrous Grasping and In-hand Manipulation via Scoring with a Reinforcement Learning Critic [7.759447374181355]
ロボット工学において、手作業の操作と把握は基本的なものであるが、しばしば別々に対処される。本稿では,このギャップを埋めるために,手作業で訓練した強化学習エージェントの批判ネットワークを活用する方法を提案する。実験の結果,本手法は追加訓練を必要とせず,手指操作の成功率を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-05-19T15:36:34Z)
Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。 AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文参考訳（メタデータ） (2025-03-26T04:05:50Z)
DexterityGen: Foundation Controller for Unprecedented Dexterity [67.15251368211361]
ツール使用など,ロボットの巧妙な操作スキルを教えることは,大きな課題となる。現在のアプローチは、人間の遠隔操作(模倣学習)とシミュレート・トゥ・リアル強化学習(sim-to-real reinforcement learning)の2つの戦略に大別できる。本稿では,手動回転や翻訳などの大規模動きプリミティブをRLで事前学習するDexterityGenを紹介する。現実の世界では、人間の遠隔操作をコントローラーのプロンプトとして利用し、厳密な振る舞いを生み出す。
論文参考訳（メタデータ） (2025-02-06T18:49:35Z)
REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文参考訳（メタデータ） (2023-09-06T19:05:31Z)
DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文参考訳（メタデータ） (2023-05-20T07:25:27Z)
Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。 Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文参考訳（メタデータ） (2022-11-23T23:31:14Z)
Dexterous Imitation Made Easy: A Learning-Based Framework for Efficient Dexterous Manipulation [13.135013586592585]
DIME(Dexterous Made Easy)は、デクスタラスな操作のための新しい模倣学習フレームワークである。 DIMEは、人間のオペレーターを観察し、ロボットハンドを遠隔操作するために、単一のRGBカメラしか必要としない。シミュレーションと実ロボットベンチマークの両方において、複雑な手動操作タスクを解くためにDIMEを使用できることを示す。
論文参考訳（メタデータ） (2022-03-24T17:58:54Z)
Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-20T22:29:32Z)
A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文参考訳（メタデータ） (2020-12-14T22:18:39Z)
Learning of Long-Horizon Sparse-Reward Robotic Manipulator Tasks with Base Controllers [26.807673929816026]
本稿では,1つ以上の従来型ベースコントローラを用いた長軸スパース・リワードタスクの学習手法を提案する。提案アルゴリズムは,既存のベースコントローラを探索,価値学習,ポリシー更新の段階に組み込む。我々の方法は、既存の産業用ロボット操作システムを利用して、より柔軟でインテリジェントなコントローラを構築する可能性を秘めている。
論文参考訳（メタデータ） (2020-11-24T14:23:57Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)
Improving Performance in Reinforcement Learning by Breaking Generalization in Neural Networks [5.273501657421096]
オンラインNNトレーニングと干渉が強化学習においてどのように相互作用するかを示す。入力を高次元空間に再マッピングするだけで学習速度とパラメータ感度が向上することがわかった。 NNトレーニングに簡単なアプローチを提供し、実装が容易で、追加の計算をほとんど必要としない。
論文参考訳（メタデータ） (2020-03-16T19:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。