論文の概要: H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
- arxiv url: http://arxiv.org/abs/2505.07819v2
- Date: Tue, 17 Jun 2025 08:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:20.525818
- Title: H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
- Title(参考訳): H$^3$DP: ビジュモータ学習のためのトリプリヒエラルキー拡散政策
- Authors: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu,
- Abstract要約: 我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。
大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 25.65324419553667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visuomotor policy learning has witnessed substantial progress in robotic manipulation, with recent approaches predominantly relying on generative models to model the action distribution. However, these methods often overlook the critical coupling between visual perception and action prediction. In this work, we introduce $\textbf{Triply-Hierarchical Diffusion Policy}~(\textbf{H$^{\mathbf{3}}$DP})$, a novel visuomotor learning framework that explicitly incorporates hierarchical structures to strengthen the integration between visual features and action generation. H$^{3}$DP contains $\mathbf{3}$ levels of hierarchy: (1) depth-aware input layering that organizes RGB-D observations based on depth information; (2) multi-scale visual representations that encode semantic features at varying levels of granularity; and (3) a hierarchically conditioned diffusion process that aligns the generation of coarse-to-fine actions with corresponding visual features. Extensive experiments demonstrate that H$^{3}$DP yields a $\mathbf{+27.5\%}$ average relative improvement over baselines across $\mathbf{44}$ simulation tasks and achieves superior performance in $\mathbf{4}$ challenging bimanual real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.
- Abstract(参考訳): 視覚運動の政策学習はロボット操作の大幅な進歩を目の当たりにしており、近年のアプローチは行動分布をモデル化するための生成モデルに大きく依存している。
しかし、これらの手法は視覚知覚と行動予測の臨界結合をしばしば見落としている。
本稿では,視覚的特徴と行動生成の統合を強化するために階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$\textbf{Triply-Hierarchical Diffusion Policy}~(\textbf{H$^{\mathbf{3}}$DP})$を紹介する。
H$^{3}$DP は階層の$\mathbf{3}$レベルを含む: 1) 深度情報に基づいて RGB-D 観測を組織する深度対応の入力層、(2) セマンティックな特徴を様々な粒度レベルでエンコードするマルチスケール視覚表現、(3) 粗粒化アクションの生成を対応する視覚的特徴と整合させる階層的条件付き拡散プロセス。
H$^{3}$DPが$\mathbf{+27.5\%}$平均相対的改善を$\mathbf{44}$シミュレーションタスクで達成し、$\mathbf{4}$挑戦実世界の操作タスクで優れたパフォーマンスを達成することを示した。
プロジェクトページ: https://lyy-iiis.github.io/h3dp/。
関連論文リスト
- Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。
知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。
本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文 参考訳(メタデータ) (2025-05-12T15:39:51Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した
本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。
我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。
LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for
2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。
我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。
実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-09-26T23:52:09Z) - HDFormer: High-order Directed Transformer for 3D Human Pose Estimation [20.386530242069338]
HDFormerは、Human3.6MとMPI-INF-3DHPデータセットの最先端(SOTA)モデルを大幅に上回っている。
HDFormerは、リアルタイムで正確な3Dポーズ推定を可能にする、幅広い現実世界の応用性を示す。
論文 参考訳(メタデータ) (2023-02-03T16:00:48Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。