論文の概要: DexDiffuser: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2411.18562v1
- Date: Wed, 27 Nov 2024 18:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:30.067460
- Title: DexDiffuser: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation
- Title(参考訳): DexDiffuser: 適応的デキスタスマニピュレーションのための相互対応型拡散計画
- Authors: Zhixuan Liang, Yao Mu, Yixiao Wang, Fei Ni, Tianxing Chen, Wenqi Shao, Wei Zhan, Masayoshi Tomizuka, Ping Luo, Mingyu Ding,
- Abstract要約: 高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。
本稿では,適応的デキスタラス操作のための対話型拡散計画フレームワークであるDexDiffuserを紹介する。
本フレームワークは30度のドア開口で70.0%,ペンとブロックの半面配向で40.0%,ハンマーの半面駆動で46.7%を達成している。
- 参考スコア(独自算出の注目度): 77.8227835992567
- License:
- Abstract: Dexterous manipulation with contact-rich interactions is crucial for advanced robotics. While recent diffusion-based planning approaches show promise for simpler manipulation tasks, they often produce unrealistic ghost states (e.g., the object automatically moves without hand contact) or lack adaptability when handling complex sequential interactions. In this work, we introduce DexDiffuser, an interaction-aware diffusion planning framework for adaptive dexterous manipulation. DexDiffuser models joint state-action dynamics through a dual-phase diffusion process which consists of pre-interaction contact alignment and post-contact goal-directed control, enabling goal-adaptive generalizable dexterous manipulation. Additionally, we incorporate dynamics model-based dual guidance and leverage large language models for automated guidance function generation, enhancing generalizability for physical interactions and facilitating diverse goal adaptation through language cues. Experiments on physical interaction tasks such as door opening, pen and block re-orientation, and hammer striking demonstrate DexDiffuser's effectiveness on goals outside training distributions, achieving over twice the average success rate (59.2% vs. 29.5%) compared to existing methods. Our framework achieves 70.0% success on 30-degree door opening, 40.0% and 36.7% on pen and block half-side re-orientation respectively, and 46.7% on hammer nail half drive, highlighting its robustness and flexibility in contact-rich manipulation.
- Abstract(参考訳): 高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。
最近の拡散ベースの計画手法は、単純な操作タスクを約束するが、それらはしばしば非現実的なゴースト状態(例えば、オブジェクトが手動で自動的に動く)を生成したり、複雑なシーケンシャルな相互作用を扱う際の適応性に欠ける。
本稿では,適応的なデキスタラス操作のための対話型拡散計画フレームワークであるDexDiffuserを紹介する。
DexDiffuserは、相互作用前の接触アライメントと、接触後の目標指向制御からなる二相拡散プロセスを通じて、ゴール適応的な一般化可能なデキスタス操作を可能にする、ジョイント状態-動作ダイナミクスをモデル化する。
さらに、動的モデルに基づくデュアルガイダンスを導入し、大規模言語モデルを自動誘導関数生成に活用し、物理的相互作用の一般化性を高め、言語手がかりによる多様な目標適応を容易にする。
ドアの開口、ペンとブロックの再配置、ハンマーの衝撃といった物理的相互作用に関する実験は、デックスディフューザーがトレーニング分布外の目標に有効であることを示し、既存の方法と比較して平均的な成功率(59.2%対29.5%)を2倍以上に達成した。
本フレームワークは,30度のドア開口で70.0%,ペンとブロックの半面再配向で40.0%,および46.7%,ハンマーのハーフドライブで46.7%を達成し,コンタクトリッチ操作における堅牢性と柔軟性を強調した。
関連論文リスト
- Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand [2.7036595757881323]
微調整された視覚・言語・行動モデルと拡散モデルの相対的利点を組み合わせたハイブリッド制御法を提案する。
VLAモデルのみを使用する場合と比較して,このモデル切替手法は80%以上の成功率を示す。
論文 参考訳(メタデータ) (2024-10-17T20:49:45Z) - PEAR: Phrase-Based Hand-Object Interaction Anticipation [20.53329698350243]
ファースト・パーソン・ハンド・オブジェクト・インタラクション・予測は、現在のシーンとプロンプトに基づいてインタラクション・プロセスを予測することを目的としている。
既存の研究は通常、操作を無視しながら相互作用の意図だけを予測している。
インタラクションの意図と操作を共同で予測する新しいモデルPEARを提案する。
論文 参考訳(メタデータ) (2024-07-31T10:28:49Z) - Wearable Sensor-Based Few-Shot Continual Learning on Hand Gestures for Motor-Impaired Individuals via Latent Embedding Exploitation [6.782362178252351]
本稿では,リプレイベースのFew-Shot連続学習フレームワークにおいて,Latent Embedding Exploitation (LEE) 機構を導入する。
本手法は,ジェスチャー先行知識として知られる保存された潜伏埋め込みを利用して,多様な潜伏特徴空間を生成する。
本手法は、運動障害者がウェアラブルデバイスを活用するのに役立ち、そのユニークな動作スタイルを学習し応用することができる。
論文 参考訳(メタデータ) (2024-05-14T21:20:27Z) - Dynamics-Guided Diffusion Model for Robot Manipulator Design [24.703003555261482]
本稿では,データ駆動型マニピュレータ幾何設計を所定の操作タスクのために生成するフレームワークを提案する。
タスク毎に異なる設計モデルをトレーニングする代わりに、私たちのアプローチでは、タスク間で共有される学習された動的ネットワークを採用しています。
論文 参考訳(メタデータ) (2024-02-23T01:19:30Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - HandDiffuse: Generative Controllers for Two-Hand Interactions via
Diffusion Models [48.56319454887096]
既存の手データセットは概ね短距離であり、手の自己閉塞と自己相似性のために相互作用は弱い。
データの不足を解消するために,強い双方向相互作用を持つ時間列からなる新しいデータセットであるHandDiffuse12.5Mを提案する。
論文 参考訳(メタデータ) (2023-12-08T07:07:13Z) - InterDiff: Generating 3D Human-Object Interactions with Physics-Informed
Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。
我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。
複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文 参考訳(メタデータ) (2023-08-31T17:59:08Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。
このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文 参考訳(メタデータ) (2020-05-01T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。