論文の概要: From Simple to Complex Skills: The Case of In-Hand Object Reorientation
- arxiv url: http://arxiv.org/abs/2501.05439v1
- Date: Thu, 09 Jan 2025 18:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:47.118609
- Title: From Simple to Complex Skills: The Case of In-Hand Object Reorientation
- Title(参考訳): 単純なスキルから複雑なスキルへ:手作業のオブジェクト指向を例に
- Authors: Haozhi Qi, Brent Yi, Mike Lambeta, Yi Ma, Roberto Calandra, Jitendra Malik,
- Abstract要約: 我々は、以前に獲得した回転技術に基づいて、手動物体の向きを変えるための階層的ポリシーを導入する。
この階層的なポリシーは、環境と低レベルのスキルポリシー自体からのフィードバックに基づいて、どの低レベルのスキルを実行するかを選択することを学ぶ。
本稿では,プロプリセプティブ情報,低レベルスキル予測,および制御誤差を入力として用い,時間とともにオブジェクトのポーズを推定する一般化可能なオブジェクトポーズ推定手法を提案する。
- 参考スコア(独自算出の注目度): 45.58997623305503
- License:
- Abstract: Learning policies in simulation and transferring them to the real world has become a promising approach in dexterous manipulation. However, bridging the sim-to-real gap for each new task requires substantial human effort, such as careful reward engineering, hyperparameter tuning, and system identification. In this work, we present a system that leverages low-level skills to address these challenges for more complex tasks. Specifically, we introduce a hierarchical policy for in-hand object reorientation based on previously acquired rotation skills. This hierarchical policy learns to select which low-level skill to execute based on feedback from both the environment and the low-level skill policies themselves. Compared to learning from scratch, the hierarchical policy is more robust to out-of-distribution changes and transfers easily from simulation to real-world environments. Additionally, we propose a generalizable object pose estimator that uses proprioceptive information, low-level skill predictions, and control errors as inputs to estimate the object pose over time. We demonstrate that our system can reorient objects, including symmetrical and textureless ones, to a desired pose.
- Abstract(参考訳): シミュレーションにおける学習方針と実世界への移動は、巧妙な操作において有望なアプローチとなっている。
しかし、新しいタスクごとにsim-to-realギャップを埋めるには、注意深い報酬工学、ハイパーパラメータチューニング、システム識別など、相当な人的努力が必要である。
本研究では,これらの課題に対処するために,より複雑な課題に対処するために,低レベルのスキルを活用するシステムを提案する。
具体的には、以前に獲得した回転技術に基づいて、手動物体の向きを変えるための階層的ポリシーを導入する。
この階層的なポリシーは、環境と低レベルのスキルポリシー自体からのフィードバックに基づいて、どの低レベルのスキルを実行するかを選択することを学ぶ。
スクラッチから学ぶことと比較して、階層的なポリシーは分配外の変化に対してより堅牢であり、シミュレーションから現実の環境へ容易に移行できる。
さらに,プロプリセプティブ情報,低レベルスキル予測,および制御誤差を入力として用い,時間とともにオブジェクトのポーズを推定する一般化可能なオブジェクトポーズ推定器を提案する。
本システムでは, 対象物, 対称的, テクスチャのないものを, 所望のポーズに再配置できることを実証する。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Skill Transfer and Discovery for Sim-to-Real Learning: A Representation-Based Viewpoint [13.28437541072843]
表現学習を用いたロボット制御の文脈において,シミュレート・トゥ・リアルなスキル伝達と発見について検討した。
本研究では,実世界のデータから,シム・トゥ・リアルのギャップに起因する新たなスキルを学習する技術発見アルゴリズムを提案する。
我々のスキル発見アプローチは、sim-to-realギャップを狭め、現実世界のコントローラのパフォーマンスを最大30.2%向上させるのに役立つ。
論文 参考訳(メタデータ) (2024-04-07T19:22:51Z) - Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。
我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。
拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T21:28:23Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Trajectory-based Reinforcement Learning of Non-prehensile Manipulation
Skills for Semi-Autonomous Teleoperation [18.782289957834475]
本稿では,RGB-Dセンサを用いたピックアップ・アンド・プレイスタスクのための半自律遠隔操作フレームワークを提案する。
トラジェクトリに基づく強化学習を用いて、非包括的操作を学習し、物体を再構成する。
提案手法は,握り時間の観点から手動キーボード制御よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-27T14:27:28Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。