論文の概要: VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning
- arxiv url: http://arxiv.org/abs/2603.17720v1
- Date: Wed, 18 Mar 2026 13:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.95202
- Title: VolumeDP: Modeling Volumetric Representation for Manipulation Policy Learning
- Title(参考訳): VolumeDP: 操作ポリシー学習のためのボリューム表現のモデル化
- Authors: Tianxing Zhou, Feiyang Xue, Zhangchen Ye, Tianyuan Yuan, Hang Zhao, Tao Jiang,
- Abstract要約: VolumeDPは空間アライメントを3Dで明示的に推論することで復元するポリシーアーキテクチャである。
LIBEROシミュレーションベンチマークでは、最先端の平均成功率は88.8%に達する。
- 参考スコア(独自算出の注目度): 29.62906091681386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is a prominent paradigm for robotic manipulation. However, existing visual imitation methods map 2D image observations directly to 3D action outputs, imposing a 2D-3D mismatch that hinders spatial reasoning and degrades robustness. We present VolumeDP, a policy architecture that restores spatial alignment by explicitly reasoning in 3D. VolumeDP first lifts image features into a Volumetric Representation via cross-attention. It then selects task-relevant voxels with a learnable module and converts them into a compact set of spatial tokens, markedly reducing computation while preserving action-critical geometry. Finally, a multi-token decoder conditions on the entire token set to predict actions, thereby avoiding lossy aggregation that collapses multiple spatial tokens into a single descriptor. VolumeDP achieves a state-of-the-art average success rate of 88.8% on the LIBERO simulation benchmark, outperforming the strongest baseline by a substantial 14.8% improvement. It also delivers large performance gains over prior methods on the ManiSkill and LIBERO-Plus benchmarks. Real-world experiments further demonstrate higher success rates and robust generalization to novel spatial layouts, camera viewpoints, and environment backgrounds. Code will be released.
- Abstract(参考訳): 模倣学習はロボット操作において顕著なパラダイムである。
しかし、既存の視覚的模倣法は、2D画像の観察を直接3D動作出力にマッピングし、空間的推論を妨げる2D-3Dミスマッチを課し、堅牢性を低下させる。
本稿では,空間アライメントを3次元で明示的に推論することで復元するポリシーアーキテクチャであるVolumeDPを提案する。
VolumeDPはまず、画像の特徴をクロスアテンションを通じてボリューム表現に持ち上げる。
次に、学習可能なモジュールでタスク関連ボクセルを選択し、それらをコンパクトな空間トークンセットに変換し、アクションクリティカルな幾何学を保ちながら計算を著しく削減する。
最後に、トークン全体のマルチトークンデコーダ条件は、アクションを予測するために設定され、複数の空間トークンが単一のディスクリプタに崩壊する損失集約を回避する。
VolumeDPは、LIBEROシミュレーションベンチマークで最先端の平均成功率88.8%を達成し、14.8%の大幅な改善で最強のベースラインを上回った。
ManiSkillとLIBERO-Plusのベンチマークでは、以前のメソッドよりも大きなパフォーマンス向上を実現している。
実世界の実験はさらに、新しい空間配置、カメラ視点、環境背景への成功率の向上と堅牢な一般化を実証している。
コードはリリースされる。
関連論文リスト
- Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation [53.09168514034483]
バイマン操作は3次元幾何学を推論し、動作中にどのように進化するかを予測し、滑らかで協調された動きを生成するポリシーを必要とする。
本稿では,事前学習した3次元幾何学的基礎モデルに基づいて,バイマン操作を直接構築するフレームワークを提案する。
我々の政策は、幾何学的認識の潜伏子、2次元意味的特徴、およびプロプレセプションを統一状態表現に融合させ、拡散モデルを用いて将来のアクションチャンクと、密度の高いポイントマップにデコードする未来の3次元潜伏子を共同で予測する。
論文 参考訳(メタデータ) (2026-02-27T08:54:20Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Gaussian2Scene: 3D Scene Representation Learning via Self-supervised Learning with 3D Gaussian Splatting [6.678115792482272]
ポイントクラウドの事前トレーニングのための自己教師付き学習(SSL)は、多くの3Dビジョンタスクの基盤となっている。
本稿では,3次元ガウススティング(3DGS)の効率性と明示性を事前学習に活用する,シーンレベルのSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T13:19:21Z) - HiPART: Hierarchical Pose AutoRegressive Transformer for Occluded 3D Human Pose Estimation [61.32714172038278]
そこで本稿では, 階層型自動回帰変換器 (HiPART) と呼ばれる新しい2段階の縮退法を提案し, 元のスパース2Dポーズから2次元の高密度ポーズを生成する。
具体的には,高密度な2次元ポーズを階層的なトークンに量子化するマルチスケールスケルトントークン化モジュールを開発し,トークン接続を強化するスケルトン対応アライメントを提案する。
2D-to-3Dリフトの入力として生成された階層的ポーズにより,提案手法は隠蔽シナリオの強い堅牢性を示し,単一フレームベース3Dにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-30T06:15:36Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。