論文の概要: Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration
- arxiv url: http://arxiv.org/abs/2509.09671v1
- Date: Thu, 11 Sep 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.509901
- Title: Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration
- Title(参考訳): Dexplore: 参照スコープ探索によるデクサラスマニピュレーションのためのスケーラブルニューラルネットワーク
- Authors: Sirui Xu, Yu-Wei Chao, Liuyu Bian, Arsalan Mousavian, Yu-Xiong Wang, Liang-Yan Gui, Wei Yang,
- Abstract要約: ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
- 参考スコア(独自算出の注目度): 58.4036440289082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-object motion-capture (MoCap) repositories offer large-scale, contact-rich demonstrations and hold promise for scaling dexterous robotic manipulation. Yet demonstration inaccuracies and embodiment gaps between human and robot hands limit the straightforward use of these data. Existing methods adopt a three-stage workflow, including retargeting, tracking, and residual correction, which often leaves demonstrations underused and compound errors across stages. We introduce Dexplore, a unified single-loop optimization that jointly performs retargeting and tracking to learn robot control policies directly from MoCap at scale. Rather than treating demonstrations as ground truth, we use them as soft guidance. From raw trajectories, we derive adaptive spatial scopes, and train with reinforcement learning to keep the policy in-scope while minimizing control effort and accomplishing the task. This unified formulation preserves demonstration intent, enables robot-specific strategies to emerge, improves robustness to noise, and scales to large demonstration corpora. We distill the scaled tracking policy into a vision-based, skill-conditioned generative controller that encodes diverse manipulation skills in a rich latent representation, supporting generalization across objects and real-world deployment. Taken together, these contributions position Dexplore as a principled bridge that transforms imperfect demonstrations into effective training signals for dexterous manipulation.
- Abstract(参考訳): ハンドオブジェクトモーションキャプチャ(MoCap)レポジトリは、大規模でコンタクトに富んだデモを提供し、器用なロボット操作のスケーリングを約束する。
しかし、人間とロボットの手には不正確さとエンボディメントのギャップがあり、これらのデータの利用は制限されている。
既存の手法では、リターゲティング、トラッキング、残留修正を含む3段階のワークフローを採用している。
Dexploreは,MoCapから直接ロボット制御ポリシーを学習するために,リターゲティングとトラッキングを共同で行う,統一された単一ループ最適化である。
デモを根拠となる真実として扱うのではなく、ソフトガイダンスとして利用します。
生の軌跡から適応的な空間スコープを導出し、強化学習で学習し、制御作業の最小化とタスクの達成を図りながら、ポリシーをスコープ内で維持する。
この統一された定式化は、デモンストレーション意図を保存し、ロボット固有の戦略の創出を可能にし、ノイズに対する堅牢性を改善し、大規模なデモコーパスにスケールする。
拡張されたトラッキングポリシを,多種多様な操作スキルをリッチな潜在表現にエンコードし,オブジェクト間の一般化と実世界の展開を支援する視覚ベースの,スキル条件付き生成コントローラに蒸留する。
これらの貢献により、デクスプロールは不完全なデモンストレーションを巧妙な操作のための効果的な訓練信号に変換する原則的な橋として位置づけられた。
関連論文リスト
- CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations [11.604546089466734]
模倣学習を用いたロボットポリシーの学習には、高価なアクションラベル付きエキスパートのデモを大量に収集する必要がある。
有望なアプローチは、例えばビデオデモから教師なしの方法で潜在アクションラベルを学習するといった、ラベルなしの観測の多さを活用することである。
我々は、ラベルのない観測データから複雑な連続制御タスクを解くのに必要な2つの重要な要素を組み込んだ連続潜時行動モデル(CLAM)を設計する。
論文 参考訳(メタデータ) (2025-05-08T07:07:58Z) - Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers [23.292429025366417]
本稿では,逆ダイナミクスコントローラのアクションデータ効率向上を目的としたプランテイン制御フレームワークを提案する。
具体的には、Deep Koopman Operatorフレームワークを用いて力学系をモデル化し、観測のみの軌跡を用いて潜在動作表現を学習する。
この潜在表現は、線形アクションデコーダを用いて実高次元連続的なアクションに効果的にマッピングすることができる。
論文 参考訳(メタデータ) (2024-10-10T03:33:57Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。