論文の概要: Spatial RoboGrasp: Generalized Robotic Grasping Control Policy
- arxiv url: http://arxiv.org/abs/2505.20814v1
- Date: Tue, 27 May 2025 07:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.469019
- Title: Spatial RoboGrasp: Generalized Robotic Grasping Control Policy
- Title(参考訳): 空間ロボグラフ:汎用ロボットグラスピング制御ポリシー
- Authors: Yiqi Huang, Travis Davies, Jiahuan Yan, Jiankai Sun, Xiang Chen, Luhui Hu,
- Abstract要約: 本稿では,頑健なマルチモーダル認識と信頼性のある把握予測を結合した統合フレームワークを提案する。
我々のアーキテクチャは、ドメインランダム化拡張、単分子深度推定、深度対応の6-DoF Grasp Promptを単一の空間表現に融合する。
これらの結果は,拡散に基づく模倣学習と組み合わせた空間的接地感が,汎用ロボットグルーピングのためのスケーラブルで堅牢な解であることを示している。
- 参考スコア(独自算出の注目度): 11.249479037395023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving generalizable and precise robotic manipulation across diverse environments remains a critical challenge, largely due to limitations in spatial perception. While prior imitation-learning approaches have made progress, their reliance on raw RGB inputs and handcrafted features often leads to overfitting and poor 3D reasoning under varied lighting, occlusion, and object conditions. In this paper, we propose a unified framework that couples robust multimodal perception with reliable grasp prediction. Our architecture fuses domain-randomized augmentation, monocular depth estimation, and a depth-aware 6-DoF Grasp Prompt into a single spatial representation for downstream action planning. Conditioned on this encoding and a high-level task prompt, our diffusion-based policy yields precise action sequences, achieving up to 40% improvement in grasp success and 45% higher task success rates under environmental variation. These results demonstrate that spatially grounded perception, paired with diffusion-based imitation learning, offers a scalable and robust solution for general-purpose robotic grasping.
- Abstract(参考訳): 多様な環境にまたがる汎用的で正確なロボット操作を実現することは、主に空間知覚の限界のために重要な課題である。
以前の模倣学習アプローチは進歩してきたが、生のRGB入力と手作りの特徴に依存しているため、様々な照明、閉塞、物体条件下での3D推論が過度に適合し、不十分になることが多い。
本稿では,頑健なマルチモーダル認識と信頼性のある把握予測を組み合わせた統合フレームワークを提案する。
我々のアーキテクチャは、ドメインランダム化拡張、単眼深度推定、深度対応6-DoF Grasp Promptを下流行動計画のための単一の空間表現に融合する。
このエンコーディングと高レベルタスクプロンプトを条件に,我々の拡散型ポリシーは,環境変動下での作業成功率を最大40%向上し,作業成功率を最大45%向上させる,正確な行動シーケンスを得られる。
これらの結果は,拡散に基づく模倣学習と組み合わせた空間的接地感が,汎用ロボットグルーピングのためのスケーラブルで堅牢な解であることを示している。
関連論文リスト
- 3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation [50.03578546845548]
物理敵攻撃法は、ディープニューラルネットワークの脆弱性を露呈し、自律運転のような安全クリティカルなシナリオに重大な脅威をもたらす。
カモフラージュをベースとした物理的な攻撃は、パッチベースの攻撃よりも有望なアプローチであり、複雑な物理的環境においてより強力な対逆効果を提供する。
本稿では,PGAと命名された3Dガウススティング(3DGS)に基づく物理的攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-02T05:10:16Z) - AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。
RoboTwinベンチマークの平均成功率は98.7%に達する。
論文 参考訳(メタデータ) (2025-06-24T03:03:26Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - RoboGrasp: A Universal Grasping Policy for Robust Robotic Control [8.189496387470726]
RoboGraspは、トレーニング済みの把握検出モデルとロボット学習を統合する、普遍的な把握ポリシーフレームワークである。
把握精度、安定性、一般化性を大幅に向上させ、数ショットの学習と把握ボックスのプロンプトタスクで最大34%の成功率を達成する。
論文 参考訳(メタデータ) (2025-02-05T11:04:41Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - RAD: A Dataset and Benchmark for Real-Life Anomaly Detection with Robotic Observations [18.23500204496233]
Realistic Anomaly Detection データセット(RAD)は、実際のロボットアームを使用して特別に収集された最初のマルチビューRGBベースの異常検出データセットである。
RADは、13のカテゴリにわたる4765のイメージと、50以上の視点から収集された4つの欠陥タイプで構成されている。
ポーズ推定の精度を向上し、3次元点雲の再構成を容易にするためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-10-01T14:05:35Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。