論文の概要: VO-DP: Semantic-Geometric Adaptive Diffusion Policy for Vision-Only Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.15530v3
- Date: Thu, 23 Oct 2025 09:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.624635
- Title: VO-DP: Semantic-Geometric Adaptive Diffusion Policy for Vision-Only Robotic Manipulation
- Title(参考訳): VO-DP:視覚のみのロボットマニピュレーションのための意味幾何学的適応拡散政策
- Authors: Zehao Ni, Yonghao He, Lingfeng Qian, Jilei Mao, Fa Fu, Wei Sui, Hu Su, Junran Peng, Zhipeng Wang, Bin He,
- Abstract要約: ビジョンオンリー・シングルビュー拡散政策学習法(VO-DP)
ビジョンオンリーかつ単一視点拡散政策学習法(VO-DP)を提案する。
- 参考スコア(独自算出の注目度): 16.138701713455756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of imitation learning, visuomotor-based diffusion policy learning is one of the main directions in robotic manipulation. Most of these approaches rely on point clouds as observation inputs and construct scene representations through point clouds feature learning, which enables them to achieve remarkable accuracy. However, the existing literature lacks an in-depth exploration of vision-only solutions that have significant potential. In this paper, we propose a Vision-Only and single-view Diffusion Policy learning method (VO-DP) that leverages pretrained visual foundation models to achieve effective fusion of semantic and geometric features. We utilize intermediate features from VGGT incorporating semantic features from DINOv2 and geometric features from Alternating Attention blocks. Features are fused via cross-attention and spatially compressed with a CNN to form the input to the policy head. Extensive experiments demonstrate that VO-DP not only outperforms the vision-only baseline DP significantly but also exhibits distinct performance trends against the point cloud-based method DP3: in simulation tasks, VO-DP achieves an average success rate of 64.6% on par with DP3 64.0% and far higher than DP 34.8%, while in real-world tasks, it reaches 87.9%, outperforming both DP3 67.5% and DP 11.2% by a notable margin. Further robustness evaluations confirm that VO-DP remains highly stable under varying conditions including color, size, background, and lighting. Lastly, we open-source a training library for robotic manipulation. Built on Accelerate, this library supports multi-machine and multi-GPU parallel training, as well as mixed precision training. It is compatible with visuomotor policies such as DP, DP3 and VO-DP, and also supports the RoboTwin simulator.
- Abstract(参考訳): 模倣学習の文脈では、視覚運動に基づく拡散政策学習がロボット操作の主要な方向の1つである。
これらのアプローチのほとんどは、観測入力としてポイントクラウドに依存し、ポイントクラウドの特徴学習を通じてシーン表現を構築することで、顕著な精度を達成することができる。
しかし、既存の文献には、大きな可能性を秘めている視覚のみのソリューションの詳細な探索が欠けている。
本稿では、事前学習された視覚基盤モデルを利用して、意味的特徴と幾何学的特徴の効果的な融合を実現するビジョンオンリーかつ単一視点拡散政策学習法(VO-DP)を提案する。
我々は,DINOv2のセマンティックな特徴と交替注意ブロックの幾何学的特徴を取り入れたVGGTの中間的特徴を利用する。
機能は、クロスアテンションを介して融合され、CNNで空間的に圧縮され、ポリシーヘッドへの入力を形成する。
シミュレーションタスクでは、VO-DPはDP3 64.0%と同等の平均成功率64.6%、DP 34.8%、実際のタスクでは87.9%に達し、DP3 67.5%とDP 11.2%を上回っている。
さらにロバスト性評価により、VO-DPは色、サイズ、背景、照明など様々な条件下で非常に安定であることを確認した。
最後に、ロボット操作のためのトレーニングライブラリをオープンソース化する。
Accelerate上に構築されたこのライブラリは、マルチマシンとマルチGPUの並列トレーニング、混合精度トレーニングをサポートする。
DP、DP3、VO-DPなどのビジュモータポリシーと互換性があり、RoboTwinシミュレータもサポートしている。
関連論文リスト
- BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models [37.699828966838986]
BridgeVLAは、3D入力を複数の2D画像に投影し、VLMバックボーンとの入力アライメントを保証する新しい3D VLAモデルである。
アクション予測に2Dヒートマップを使用し、一貫した2次元画像空間内の入力空間と出力空間を統一する。
10以上のタスクで96.8%の成功率を達成することができ、1タスクにつき3つの軌道しか持たず、異常なサンプル効率を誇示している。
論文 参考訳(メタデータ) (2025-06-09T17:36:34Z) - Pre-training a Density-Aware Pose Transformer for Robust LiDAR-based 3D Human Pose Estimation [27.25933965875881]
LiDARベースの3Dヒューマンポース推定が研究の焦点となっている。
既存の手法のほとんどは、時間情報、マルチモーダル融合、あるいはSMPL最適化を使ってバイアスのある結果を修正する。
本稿では,ポイントクラウドのモデリングと拡張に関する洞察を提供する,シンプルながら強力な手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T02:54:30Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations [19.41216557646392]
3次元拡散政策(DP3)は、新しい視覚模倣学習手法である。
実験では、DP3は10のデモでほとんどのタスクを処理し、24.2%の相対的な改善でベースラインを超えた。
実際のロボット実験では、DP3は頻繁に行う基準法とは対照的に、安全要件にほとんど違反しない。
論文 参考訳(メタデータ) (2024-03-06T18:58:49Z) - DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文 参考訳(メタデータ) (2023-03-30T17:26:50Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。