論文の概要: AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2506.19269v2
- Date: Wed, 25 Jun 2025 05:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 12:28:29.376776
- Title: AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation
- Title(参考訳): AnchorDP3:3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation
- Authors: Ziyan Zhao, Ke Fan, He-Yang Xu, Ning Qiao, Bo Peng, Wenlong Gao, Dongjiang Li, Hui Shen,
- Abstract要約: AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。
RoboTwinベンチマークの平均成功率は98.7%に達する。
- 参考スコア(独自算出の注目度): 8.603450327406879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AnchorDP3, a diffusion policy framework for dual-arm robotic manipulation that achieves state-of-the-art performance in highly randomized environments. AnchorDP3 integrates three key innovations: (1) Simulator-Supervised Semantic Segmentation, using rendered ground truth to explicitly segment task-critical objects within the point cloud, which provides strong affordance priors; (2) Task-Conditioned Feature Encoders, lightweight modules processing augmented point clouds per task, enabling efficient multi-task learning through a shared diffusion-based action expert; (3) Affordance-Anchored Keypose Diffusion with Full State Supervision, replacing dense trajectory prediction with sparse, geometrically meaningful action anchors, i.e., keyposes such as pre-grasp pose, grasp pose directly anchored to affordances, drastically simplifying the prediction space; the action expert is forced to predict both robot joint angles and end-effector poses simultaneously, which exploits geometric consistency to accelerate convergence and boost accuracy. Trained on large-scale, procedurally generated simulation data, AnchorDP3 achieves a 98.7% average success rate in the RoboTwin benchmark across diverse tasks under extreme randomization of objects, clutter, table height, lighting, and backgrounds. This framework, when integrated with the RoboTwin real-to-sim pipeline, has the potential to enable fully autonomous generation of deployable visuomotor policies from only scene and instruction, totally eliminating human demonstrations from learning manipulation skills.
- Abstract(参考訳): 両腕ロボット操作のための拡散ポリシーフレームワークであるAnchorDP3について述べる。
AnchorDP3は、3つの重要なイノベーションを統合している: 1) シミュレーター・スーパービジョン・セマンティック・セマンティック・セマンティクス(Simulator-Supervised Semantic Segmentation)、レンダリングされた地上の真実を使って、ポイントクラウド内でタスククリティカルなオブジェクトを明示的にセグメンテーションし、強力なアプライアンスを提供する、(2) タスク・コンディション・フィーチャーエンコーダ(Task-Conditioned Feature Encodeer)、ライトウェイトモジュール(Lightlight Modules Processing augmented point clouds per task)、共有拡散ベースのアクションエキスパートによる効率的なマルチタスク学習を可能にする、(3) Affordance-Anchored Keypose Diffusion with Full State Supervision、sparse、幾何学的に意味のあるアクションアンカーで密集した軌道予測を置き換える、例えば、セマンティクスのセマンティクスは、アプライアンスに直結したポーズし、空間を劇的に単純化する。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練されたAnchorDP3は、オブジェクト、乱雑、テーブルの高さ、照明、背景といった様々なタスクにおいて、RoboTwinベンチマークの平均成功率は98.7%に達する。
このフレームワークは、RoboTwinのリアルタイムパイプラインと統合されると、シーンとインストラクションのみからデプロイ可能なビジュモータポリシを完全に自律的に生成し、人間のデモを操作スキルから完全に排除する可能性がある。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。
既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。
本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文 参考訳(メタデータ) (2025-03-13T01:35:04Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。