論文の概要: Hydra-DP3: Frequency-Aware Right-Sizing of 3D Diffusion Policies for Visuomotor Control
- arxiv url: http://arxiv.org/abs/2605.01581v1
- Date: Sat, 02 May 2026 19:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.839521
- Title: Hydra-DP3: Frequency-Aware Right-Sizing of 3D Diffusion Policies for Visuomotor Control
- Title(参考訳): Hydra-DP3: Visuomotor 制御のための3次元拡散反応の周波数対応右サイズ化
- Authors: Jinhao Zhang, Zhexuan Zhou, Huizhe Li, Yichen Lai, Wenlong Xia, Haoming Song, Youmin Gong, Jie Mei,
- Abstract要約: 拡散に基づくビジュモータポリシーは、ロボット操作においてよく機能する。
現在の手法は画像生成スタイルのデコーダとマルチステップサンプリングを継承している。
軽量拡散ミキサーデコーダを用いたポケットスケール3次元拡散方式Hydra-DP3(HDP3)を提案する。
- 参考スコア(独自算出の注目度): 2.661051697105248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based visuomotor policies perform well in robotic manipulation, yet current methods still inherit image-generation-style decoders and multi-step sampling. We revisit this design from a frequency-domain perspective. Robot action trajectories are highly smooth, with most energy concentrated in a few low-frequency discrete cosine transform modes. Under this structure, we show that the error of the optimal denoiser is bounded by the low-frequency subspace dimension and residual high-frequency energy, implying that denoising error saturates after very few reverse steps. This further suggests that action denoising requires a much simpler denoising model than image generation. Motivated by this insight, we propose Hydra-DP3(HDP3), a pocket-scale 3D diffusion policy with a lightweight Diffusion Mixer decoder that supports two-step DDIM inference. Our synthetic experiments validate the theory and support the sufficiency of two-step denoising. Futhermore, across RoboTwin2.0, Adroit, MetaWorld, and real-world tasks, HDP3 achieves state-of-the-art performance with fewer than 1% of the parameters of prior 3D diffusion-based policies and substantially lower inference latency.
- Abstract(参考訳): 拡散に基づくビジュモータポリシーはロボット操作において良好に機能するが、現在の方法は画像生成スタイルのデコーダとマルチステップサンプリングを継承している。
我々はこの設計を周波数領域の観点から再考する。
ロボットの行動軌跡は非常に滑らかで、ほとんどのエネルギーはいくつかの低周波離散コサイン変換モードに集中している。
この構造の下では, 最適復調器の誤差は低周波部分空間次元と残留高周波エネルギーで有界であり, ほとんど逆ステップを経た後にデノイング誤差が飽和することを示す。
これはさらに、アクションの復調には画像生成よりもはるかに単純な復調モデルが必要であることを示唆している。
そこで本研究では,2段階DDIM推論をサポートするDiffusion Mixerデコーダを用いたポケットスケール3次元拡散方式Hydra-DP3(HDP3)を提案する。
我々の合成実験は、この理論を検証し、2段階の遮音効果を裏付けるものである。
さらに、RoboTwin2.0、Adroit、MetaWorld、および実世界のタスクにわたって、HDP3は従来の3D拡散ベースのポリシーのパラメータの1%未満で最先端のパフォーマンスを達成し、推論レイテンシを大幅に低下させる。
関連論文リスト
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation [53.750389076941396]
拡散に基づくビジュモータポリシーは反復的認知を通じて多モーダルな動作分布をキャプチャするが、その高い推論遅延はリアルタイムロボット制御を制限する。
Ada3Driftは,専門家のデモモードに対して予測された行動を引き付ける訓練時間ドリフト場を学習する。
Ada3Driftは、拡散ベースの代替よりも10倍の関数評価を必要としながら、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-12T14:36:53Z) - PocketDP3: Efficient Pocket-Scale 3D Visuomotor Policy [2.661051697105248]
3次元視覚に基づく拡散政策は、複雑なロボット操作スキルを学習する上で強力な能力を示している。
小さいが効率的なポイントクラウドエンコーダは、しばしば巨大なデコーダとペアリングされる。
重条件付きU-Netデコーダを代替するポケットスケール3次元拡散ポリシであるPocketDP3を提案する。
論文 参考訳(メタデータ) (2026-01-29T17:23:25Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Linear Combinations of Patches are Unreasonably Effective for Single-Image Denoising [5.893124686141782]
ディープニューラルネットワークは、画像のノイズ化に革命を起こし、大幅な精度向上を実現している。
画像先行を外部から学習する必要性を軽減するため、入力ノイズ画像の分析のみに基づいて、単画像方式で復調を行う。
本研究は, この制約下でのデノナイズのためのパッチの線形結合の有効性について検討する。
論文 参考訳(メタデータ) (2022-12-01T10:52:03Z) - Tuning-free Plug-and-Play Hyperspectral Image Deconvolution with Deep
Priors [6.0622962428871885]
HSIデコンボリューションのためのチューニング不要なPlug-and-Playアルゴリズムを提案する。
具体的には、交互方向乗算器(ADMM)を用いて問題を2つの反復的部分確率に分解する。
フレキシブルブラインド3Dデノナイジングネットワーク(B3DDN)は、より深い事前学習と、異なるノイズレベルを持つデノナイジングサブプロブレムの解決を目的として設計されている。
論文 参考訳(メタデータ) (2022-11-28T13:41:14Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。