論文の概要: PocketDP3: Efficient Pocket-Scale 3D Visuomotor Policy
- arxiv url: http://arxiv.org/abs/2601.22018v2
- Date: Fri, 30 Jan 2026 13:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.019333
- Title: PocketDP3: Efficient Pocket-Scale 3D Visuomotor Policy
- Title(参考訳): PocketDP3: 効率的なPocket-Scale 3D Visuomotor Policy
- Authors: Jinhao Zhang, Zhexuan Zhou, Huizhe Li, Yichen Lai, Wenlong Xia, Haoming Song, Youmin Gong, Jie Mei,
- Abstract要約: 3次元視覚に基づく拡散政策は、複雑なロボット操作スキルを学習する上で強力な能力を示している。
小さいが効率的なポイントクラウドエンコーダは、しばしば巨大なデコーダとペアリングされる。
重条件付きU-Netデコーダを代替するポケットスケール3次元拡散ポリシであるPocketDP3を提案する。
- 参考スコア(独自算出の注目度): 2.661051697105248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, 3D vision-based diffusion policies have shown strong capability in learning complex robotic manipulation skills. However, a common architectural mismatch exists in these models: a tiny yet efficient point-cloud encoder is often paired with a massive decoder. Given a compact scene representation, we argue that this may lead to substantial parameter waste in the decoder. Motivated by this observation, we propose PocketDP3, a pocket-scale 3D diffusion policy that replaces the heavy conditional U-Net decoder used in prior methods with a lightweight Diffusion Mixer (DiM) built on MLP-Mixer blocks. This architecture enables efficient fusion across temporal and channel dimensions, significantly reducing model size. Notably, without any additional consistency distillation techniques, our method supports two-step inference without sacrificing performance, improving practicality for real-time deployment. Across three simulation benchmarks--RoboTwin2.0, Adroit, and MetaWorld--PocketDP3 achieves state-of-the-art performance with fewer than 1% of the parameters of prior methods, while also accelerating inference. Real-world experiments further demonstrate the practicality and transferability of our method in real-world settings. Code will be released.
- Abstract(参考訳): 近年,複雑なロボット操作技術を学ぶ上で,3次元視覚に基づく拡散政策が強い能力を示している。
しかし、これらのモデルに共通するアーキテクチャミスマッチが存在する: 小さいが効率的なポイントクラウドエンコーダは、しばしば巨大なデコーダとペアリングされる。
コンパクトなシーン表現を考えると、デコーダにかなりのパラメータの無駄が発生する可能性がある。
そこで本研究では,従来の手法で使用されていた重条件付きU-Netデコーダを,MLP-Mixerブロック上に構築された軽量拡散ミキサー(DiM)に置き換える,ポケットスケールの3次元拡散ポリシであるPocketDP3を提案する。
このアーキテクチャは、時間次元とチャネル次元をまたいだ効率的な融合を可能にし、モデルサイズを大幅に削減する。
特に, 連続蒸留技術がなければ, 性能を犠牲にすることなく2段階の推論をサポートし, 実時間展開の実用性を向上させることができる。
RoboTwin2.0、Adroit、MetaWorldの3つのシミュレーションベンチマーク-PocketDP3は、従来の手法のパラメータの1%未満で最先端のパフォーマンスを達成し、推論も加速する。
実世界の実験は、実世界の環境での本手法の実用性と伝達性をさらに実証する。
コードはリリースされる。
関連論文リスト
- Efficient Encoder-Free Fourier-based 3D Large Multimodal Model [22.758597018527244]
3Dデータを処理する大規模マルチモーダルモデル(LMM)は通常、幾何学的特徴を抽出するために重く訓練済みのビジュアルエンコーダに依存している。
我々は,最初の効率的なエンコーダレス3DシーンLMMであるFase3Dを提案する。
論文 参考訳(メタデータ) (2026-02-26T16:16:02Z) - Information Filtering via Variational Regularization for Robot Manipulation [2.564607372946005]
本稿では,時間条件付きガウス関数をバックボーン上に課し,KL分割正規化器を適用する軽量モジュールを提案する。
提案手法では,RoboTwin2.0で6.1%,AdroitとMetaWorldで4.1%向上し,新たな最先端の成果が得られた。
論文 参考訳(メタデータ) (2026-01-29T16:17:42Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Rapid Salient Object Detection with Difference Convolutional Neural Networks [49.838283141381716]
本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。
SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
論文 参考訳(メタデータ) (2025-07-01T20:41:05Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - MinkUNeXt: Point Cloud-based Large-scale Place Recognition using 3D
Sparse Convolutions [1.124958340749622]
MinkUNeXtは、新しい3D MinkNeXt Blockをベースとした、ポイントクラウドからの位置認識のための効率的かつ効率的なアーキテクチャである。
提案の徹底的な評価は、Oxford RobotCarとIn-houseデータセットを用いて行われている。
論文 参考訳(メタデータ) (2024-03-12T12:25:54Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。