論文の概要: Spatial RoboGrasp: Generalized Robotic Grasping Control Policy
- arxiv url: http://arxiv.org/abs/2505.20814v1
- Date: Tue, 27 May 2025 07:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.469019
- Title: Spatial RoboGrasp: Generalized Robotic Grasping Control Policy
- Title(参考訳): 空間ロボグラフ:汎用ロボットグラスピング制御ポリシー
- Authors: Yiqi Huang, Travis Davies, Jiahuan Yan, Jiankai Sun, Xiang Chen, Luhui Hu,
- Abstract要約: 本稿では,頑健なマルチモーダル認識と信頼性のある把握予測を結合した統合フレームワークを提案する。
我々のアーキテクチャは、ドメインランダム化拡張、単分子深度推定、深度対応の6-DoF Grasp Promptを単一の空間表現に融合する。
これらの結果は,拡散に基づく模倣学習と組み合わせた空間的接地感が,汎用ロボットグルーピングのためのスケーラブルで堅牢な解であることを示している。
- 参考スコア(独自算出の注目度): 11.249479037395023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving generalizable and precise robotic manipulation across diverse environments remains a critical challenge, largely due to limitations in spatial perception. While prior imitation-learning approaches have made progress, their reliance on raw RGB inputs and handcrafted features often leads to overfitting and poor 3D reasoning under varied lighting, occlusion, and object conditions. In this paper, we propose a unified framework that couples robust multimodal perception with reliable grasp prediction. Our architecture fuses domain-randomized augmentation, monocular depth estimation, and a depth-aware 6-DoF Grasp Prompt into a single spatial representation for downstream action planning. Conditioned on this encoding and a high-level task prompt, our diffusion-based policy yields precise action sequences, achieving up to 40% improvement in grasp success and 45% higher task success rates under environmental variation. These results demonstrate that spatially grounded perception, paired with diffusion-based imitation learning, offers a scalable and robust solution for general-purpose robotic grasping.
- Abstract(参考訳): 多様な環境にまたがる汎用的で正確なロボット操作を実現することは、主に空間知覚の限界のために重要な課題である。
以前の模倣学習アプローチは進歩してきたが、生のRGB入力と手作りの特徴に依存しているため、様々な照明、閉塞、物体条件下での3D推論が過度に適合し、不十分になることが多い。
本稿では,頑健なマルチモーダル認識と信頼性のある把握予測を組み合わせた統合フレームワークを提案する。
我々のアーキテクチャは、ドメインランダム化拡張、単眼深度推定、深度対応6-DoF Grasp Promptを下流行動計画のための単一の空間表現に融合する。
このエンコーディングと高レベルタスクプロンプトを条件に,我々の拡散型ポリシーは,環境変動下での作業成功率を最大40%向上し,作業成功率を最大45%向上させる,正確な行動シーケンスを得られる。
これらの結果は,拡散に基づく模倣学習と組み合わせた空間的接地感が,汎用ロボットグルーピングのためのスケーラブルで堅牢な解であることを示している。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。