論文の概要: ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy
- arxiv url: http://arxiv.org/abs/2603.14977v1
- Date: Mon, 16 Mar 2026 08:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.854016
- Title: ReMAP-DP: Reprojected Multi-view Aligned PointMaps for Diffusion Policy
- Title(参考訳): ReMAP-DP:拡散政策のための多視点アライメントポイントマップの再作成
- Authors: Xinzhang Yang, Renjun Wu, Jinyan Liu, Xuesong Li,
- Abstract要約: 汎用的なロボットポリシーは意味論的推論に優れるが、3次元空間認識の明快さは欠如している。
本稿では,ReMAP-DPを提案する。ReMAP-DPは,標準化された視点の再計画と,構造を意識した双方向ストリーム拡散ポリシーを併用した新しいフレームワークである。
提案手法は,幾何的に困難なスタックキューブタスクにおいてDP3よりも28%向上する。
- 参考スコア(独自算出の注目度): 2.369231960007491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist robot policies built upon 2D visual representations excel at semantic reasoning but inherently lack the explicit 3D spatial awareness required for high-precision tasks. Existing 3D integration methods struggle to bridge this gap due to the structural irregularity of sparse point clouds and the geometric distortion introduced by multi-view orthographic rendering. To overcome these barriers, we present ReMAP-DP, a novel framework synergizing standardized perspective reprojection with a structure-aware dual-stream diffusion policy. By coupling the re-projected views with pixel-aligned PointMaps, our dual-stream architecture leverages learnable modality embeddings to fuse frozen semantic features and explicit geometric descriptors, ensuring precise implicit patch-level alignment. Extensive experiments across simulation and real-world environments demonstrate ReMAP-DP's superior performance in diverse manipulation tasks. On RoboTwin 2.0, it attains a 59.3% average success rate, outperforming the DP3 baseline by +6.6%. On ManiSkill 3, our method yields a 28% improvement over DP3 on the geometrically challenging Stack Cube task. Furthermore, ReMAP-DP exhibits remarkable real-world robustness, executing high-precision and dynamic manipulations with superior data efficiency from only a handful of demonstrations. Project page is available at: https://icr-lab.github.io/ReMAP-DP/
- Abstract(参考訳): 2次元視覚表現の上に構築された汎用的なロボットポリシーは、意味論的推論において優れているが、本質的には高精度なタスクに必要な3次元空間認識を欠いている。
既存の3次元積分法は、スパース点雲の構造的不規則さと、マルチビューの正書法レンダリングによって導入された幾何学的歪みにより、このギャップを埋めるのに苦労している。
これらの障壁を克服するために、構造対応の二重ストリーム拡散ポリシーで標準化された視点再提案を相乗化するための新しいフレームワークであるReMAP-DPを提案する。
我々のデュアルストリームアーキテクチャは、再プロジェクションされたビューとピクセルアラインメントのPointMapsを結合することで、学習可能なモダリティ埋め込みを活用して、凍結したセマンティック特徴と明示的な幾何学的記述子を融合させ、暗黙のパッチレベルアライメントを確実にします。
シミュレーションと実世界の環境にわたる大規模な実験は、多様な操作タスクにおいて、ReMAP-DPの優れた性能を示す。
RoboTwin 2.0では、平均成功率は59.3%に達し、DP3ベースラインを+6.6%上回った。
ManiSkill 3では,幾何学的に困難なStack CubeタスクにおいてDP3よりも28%向上した。
さらに、ReMAP-DPは、少数のデモからより優れたデータ効率で高精度でダイナミックな操作を実行することで、目覚ましい実世界のロバスト性を示す。
プロジェクトページは、https://icr-lab.github.io/ReMAP-DP/で公開されている。
関連論文リスト
- Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。
提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文 参考訳(メタデータ) (2025-02-14T18:59:59Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Improving neural implicit surfaces geometry with patch warping [12.106051690920266]
これはニューラルネットワークによる高周波テクスチャの学習と描画が難しいことによるものだ、と私たちは主張する。
我々は、異なる視点で直接光一貫性項を標準のニューラルレンダリング最適化に追加することを提案する。
我々は、標準的なDTUおよびEPFLベンチマークでNeuralWarpと呼ばれるアプローチを評価し、両方のデータセットにおいて、教師なしの暗黙的表面再構成の状態を20%以上向上させることを示す。
論文 参考訳(メタデータ) (2021-12-17T17:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。