論文の概要: Dex4D: Task-Agnostic Point Track Policy for Sim-to-Real Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2602.15828v1
- Date: Tue, 17 Feb 2026 18:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.175513
- Title: Dex4D: Task-Agnostic Point Track Policy for Sim-to-Real Dexterous Manipulation
- Title(参考訳): Dex4D:Sim-to-Real Dexterous Manipulationのためのタスク非依存のポイントトラックポリシー
- Authors: Yuxuan Kuang, Sungjae Park, Katerina Fragkiadaki, Shubham Tulsiani,
- Abstract要約: 本稿では,多様な実世界のタスクを実行するために柔軟に再構成可能な,巧妙な操作スキルを学習するためのフレームワークを提案する。
この"Anypose-to-Anypose"ポリシーを、さまざまなポーズ設定を持つ数千のオブジェクトにまたがるシミュレーションでトレーニングします。
デプロイ時に、このポリシーは微調整なしで、現実世界のタスクにゼロショットで転送できる。
- 参考スコア(独自算出の注目度): 43.03275685788157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning generalist policies capable of accomplishing a plethora of everyday tasks remains an open challenge in dexterous manipulation. In particular, collecting large-scale manipulation data via real-world teleoperation is expensive and difficult to scale. While learning in simulation provides a feasible alternative, designing multiple task-specific environments and rewards for training is similarly challenging. We propose Dex4D, a framework that instead leverages simulation for learning task-agnostic dexterous skills that can be flexibly recomposed to perform diverse real-world manipulation tasks. Specifically, Dex4D learns a domain-agnostic 3D point track conditioned policy capable of manipulating any object to any desired pose. We train this 'Anypose-to-Anypose' policy in simulation across thousands of objects with diverse pose configurations, covering a broad space of robot-object interactions that can be composed at test time. At deployment, this policy can be zero-shot transferred to real-world tasks without finetuning, simply by prompting it with desired object-centric point tracks extracted from generated videos. During execution, Dex4D uses online point tracking for closed-loop perception and control. Extensive experiments in simulation and on real robots show that our method enables zero-shot deployment for diverse dexterous manipulation tasks and yields consistent improvements over prior baselines. Furthermore, we demonstrate strong generalization to novel objects, scene layouts, backgrounds, and trajectories, highlighting the robustness and scalability of the proposed framework.
- Abstract(参考訳): 日常的な作業の多さを達成できる一般主義的な政策を学ぶことは、厳密な操作においてオープンな課題である。
特に,リアルタイム遠隔操作による大規模な操作データ収集には費用がかかり,スケールアップが困難である。
シミュレーションでの学習は実現可能な代替手段を提供するが、複数のタスク固有の環境を設計し、トレーニングに対する報酬も同じように難しい。
Dex4Dは、様々な実世界の操作タスクを実行するために柔軟に再構成できる、タスク非依存のデキスタススキルの学習にシミュレーションを活用するフレームワークである。
具体的には、Dex4Dは、任意のオブジェクトを望ましいポーズに操作できるドメインに依存しない3Dポイントトラック条件付きポリシーを学習する。
我々は、この「Anypose-to-Anypose」ポリシーを、多様なポーズ構成を持つ何千ものオブジェクトのシミュレーションで訓練し、テスト時に構成できるロボットとオブジェクトの相互作用の広い空間をカバーする。
デプロイ時に、このポリシーは、生成されたビデオから望まれるオブジェクト中心のポイントトラックで、微調整することなく、現実世界のタスクにゼロショットで転送できる。
実行中、Dex4Dはクローズドループの認識と制御にオンラインポイントトラッキングを使用する。
シミュレーションおよび実ロボットにおける広範囲な実験により, 多様な操作タスクに対してゼロショット展開が可能であり, 従来のベースラインよりも一貫した改善が得られた。
さらに,新しいオブジェクト,シーンレイアウト,背景,トラジェクトリへの強力な一般化を実証し,提案フレームワークの堅牢性とスケーラビリティを強調した。
関連論文リスト
- Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Evaluating Continual Learning Algorithms by Generating 3D Virtual
Environments [66.83839051693695]
連続学習とは、人間や動物が特定の環境で徐々に学習する能力である。
本稿では3次元仮想環境の最近の進歩を活用して,フォトリアリスティックな外観を持つ潜在的に長寿命な動的シーンの自動生成にアプローチすることを提案する。
本論文の新たな要素は、シーンがパラメトリックな方法で記述され、エージェントが知覚する入力ストリームの視覚的複雑さを完全に制御できることである。
論文 参考訳(メタデータ) (2021-09-16T10:37:21Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。