Fugu-MT 論文翻訳(概要): DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

論文の概要: DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

arxiv url: http://arxiv.org/abs/2411.18562v3
Date: Wed, 11 Dec 2024 11:48:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 14:44:55.662863
Title: DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation
Title（参考訳）: DexHandDiff:Adaptive Dexterous Manipulationのための相互対応型拡散計画
Authors: Zhixuan Liang, Yao Mu, Yixiao Wang, Tianxing Chen, Wenqi Shao, Wei Zhan, Masayoshi Tomizuka, Ping Luo, Mingyu Ding,
Abstract要約: 高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。 DexHandDiffは,適応的デキスタラス操作のための対話型拡散計画フレームワークである。本フレームワークは30度のドア開口で70.0%,ペンとブロックの半面配向で40.0%,ハンマーの半面駆動で46.7%を達成している。
参考スコア（独自算出の注目度）: 78.60543357822957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dexterous manipulation with contact-rich interactions is crucial for advanced robotics. While recent diffusion-based planning approaches show promise for simpler manipulation tasks, they often produce unrealistic ghost states (e.g., the object automatically moves without hand contact) or lack adaptability when handling complex sequential interactions. In this work, we introduce DexHandDiff, an interaction-aware diffusion planning framework for adaptive dexterous manipulation. DexHandDiff models joint state-action dynamics through a dual-phase diffusion process which consists of pre-interaction contact alignment and post-contact goal-directed control, enabling goal-adaptive generalizable dexterous manipulation. Additionally, we incorporate dynamics model-based dual guidance and leverage large language models for automated guidance function generation, enhancing generalizability for physical interactions and facilitating diverse goal adaptation through language cues. Experiments on physical interaction tasks such as door opening, pen and block re-orientation, and hammer striking demonstrate DexHandDiff's effectiveness on goals outside training distributions, achieving over twice the average success rate (59.2% vs. 29.5%) compared to existing methods. Our framework achieves 70.0% success on 30-degree door opening, 40.0% and 36.7% on pen and block half-side re-orientation respectively, and 46.7% on hammer nail half drive, highlighting its robustness and flexibility in contact-rich manipulation.
Abstract（参考訳）: 高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。最近の拡散ベースの計画手法は、単純な操作タスクを約束するが、それらはしばしば非現実的なゴースト状態(例えば、オブジェクトが手動で自動的に動く)を生成したり、複雑なシーケンシャルな相互作用を扱う際の適応性に欠ける。本稿では,適応的デキスタラス操作のための対話型拡散計画フレームワークであるDexHandDiffを紹介する。 DexHandDiffは、相互作用前の接触アライメントと、接触後の目標指向制御からなる二相拡散プロセスを通じて、ゴール適応的な一般化可能なデキスタス操作を可能にする、ジョイント状態-動作ダイナミクスをモデル化する。さらに、動的モデルに基づくデュアルガイダンスを導入し、大規模言語モデルを自動誘導関数生成に活用し、物理的相互作用の一般化性を高め、言語手がかりによる多様な目標適応を容易にする。ドアの開口、ペンとブロックの再配置、ハンマーの衝撃といった物理的相互作用に関する実験は、DexHandDiffがトレーニングディストリビューション以外の目標に有効であることを示し、既存の方法と比較して平均的な成功率(59.2%対29.5%)を2倍以上に達成している。本フレームワークは,30度のドア開口で70.0%,ペンとブロックの半面再配向で40.0%,および46.7%,ハンマーのハーフドライブで46.7%を達成し,コンタクトリッチ操作における堅牢性と柔軟性を強調した。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects [14.230098033626744]
人工物体の全身操作は、仮想人間やロボット工学の幅広い応用において、非常に困難な作業である。本研究では,現実的な全身運動を実現するための新しい拡散雑音最適化フレームワークを提案する。提案手法は,動作品質と身体的可視性において,既存の手法よりも優れていることを示す広範な実験を行う。
論文参考訳（メタデータ） (2025-05-27T17:11:50Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Dexterous Manipulation through Imitation Learning: A Survey [28.04590024211786]
イミテーションラーニング(IL)は、ロボットが専門家によるデモンストレーションから直接巧妙な操作スキルを習得できるようにすることによって、代替手段を提供する。 ILは、明示的なモデリングと大規模な試行錯誤の必要性を回避しながら、きめ細かい調整と接触ダイナミクスをキャプチャする。私たちのゴールは、研究者や実践者たちに、この急速に進化する領域の包括的紹介を提供することです。
論文参考訳（メタデータ） (2025-04-04T15:14:38Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework [28.193344739081798]
バイオマチックなロボット操作は、ロボティクスコミュニティにおいて、新しくて重要なトピックである。本稿では,バイマニュアル操作における異なるタスクの特徴を考察した,疎結合なインタラクションフレームワークを提案する。我々のフレームワークは,SOTA法よりも23.5%向上し,優れた性能を実現している。
論文参考訳（メタデータ） (2025-03-12T09:28:41Z)
Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand [2.7036595757881323]
微調整された視覚・言語・行動モデルと拡散モデルの相対的利点を組み合わせたハイブリッド制御法を提案する。 VLAモデルのみを使用する場合と比較して,このモデル切替手法は80%以上の成功率を示す。
論文参考訳（メタデータ） (2024-10-17T20:49:45Z)
ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文参考訳（メタデータ） (2024-09-14T04:28:44Z)
PEAR: Phrase-Based Hand-Object Interaction Anticipation [20.53329698350243]
ファースト・パーソン・ハンド・オブジェクト・インタラクション・予測は、現在のシーンとプロンプトに基づいてインタラクション・プロセスを予測することを目的としている。既存の研究は通常、操作を無視しながら相互作用の意図だけを予測している。インタラクションの意図と操作を共同で予測する新しいモデルPEARを提案する。
論文参考訳（メタデータ） (2024-07-31T10:28:49Z)
Wearable Sensor-Based Few-Shot Continual Learning on Hand Gestures for Motor-Impaired Individuals via Latent Embedding Exploitation [6.782362178252351]
本稿では,リプレイベースのFew-Shot連続学習フレームワークにおいて,Latent Embedding Exploitation (LEE) 機構を導入する。本手法は,ジェスチャー先行知識として知られる保存された潜伏埋め込みを利用して,多様な潜伏特徴空間を生成する。本手法は、運動障害者がウェアラブルデバイスを活用するのに役立ち、そのユニークな動作スタイルを学習し応用することができる。
論文参考訳（メタデータ） (2024-05-14T21:20:27Z)
Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文参考訳（メタデータ） (2024-03-24T14:24:13Z)
Dynamics-Guided Diffusion Model for Robot Manipulator Design [24.703003555261482]
本稿では,データ駆動型マニピュレータ幾何設計を所定の操作タスクのために生成するフレームワークを提案する。タスク毎に異なる設計モデルをトレーニングする代わりに、私たちのアプローチでは、タスク間で共有される学習された動的ネットワークを採用しています。
論文参考訳（メタデータ） (2024-02-23T01:19:30Z)
HandDiffuse: Generative Controllers for Two-Hand Interactions via Diffusion Models [48.56319454887096]
既存の手データセットは概ね短距離であり、手の自己閉塞と自己相似性のために相互作用は弱い。データの不足を解消するために,強い双方向相互作用を持つ時間列からなる新しいデータセットであるHandDiffuse12.5Mを提案する。
論文参考訳（メタデータ） (2023-12-08T07:07:13Z)
InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文参考訳（メタデータ） (2023-08-31T17:59:08Z)
InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文参考訳（メタデータ） (2023-04-12T08:12:29Z)
Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文参考訳（メタデータ） (2021-03-18T21:32:18Z)
Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文参考訳（メタデータ） (2021-03-06T09:10:03Z)
Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文参考訳（メタデータ） (2020-05-01T05:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。