論文の概要: Monocular One-Shot Metric-Depth Alignment for RGB-Based Robot Grasping
- arxiv url: http://arxiv.org/abs/2506.17110v1
- Date: Fri, 20 Jun 2025 16:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.530009
- Title: Monocular One-Shot Metric-Depth Alignment for RGB-Based Robot Grasping
- Title(参考訳): RGB型ロボットグレーピングのための単眼一焦点距離アライメント
- Authors: Teng Guo, Baichuan Huang, Jingjin Yu,
- Abstract要約: 単一のRGB画像から距離深度を復元する新しいフレームワークであるモノクロワンショット距離アライメント(MOMA)を提案する。
MOMAは、カメラキャリブレーション中のスケール回転シフトアライメントを実行する。
テーブルトップ2指握りと吸引型ビンピッキングアプリケーションの実世界実験は、MOMAが多種多様なタスクで高い成功率を達成することを示している。
- 参考スコア(独自算出の注目度): 26.7709114619056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 6D object pose estimation is a prerequisite for successfully completing robotic prehensile and non-prehensile manipulation tasks. At present, 6D pose estimation for robotic manipulation generally relies on depth sensors based on, e.g., structured light, time-of-flight, and stereo-vision, which can be expensive, produce noisy output (as compared with RGB cameras), and fail to handle transparent objects. On the other hand, state-of-the-art monocular depth estimation models (MDEMs) provide only affine-invariant depths up to an unknown scale and shift. Metric MDEMs achieve some successful zero-shot results on public datasets, but fail to generalize. We propose a novel framework, Monocular One-shot Metric-depth Alignment (MOMA), to recover metric depth from a single RGB image, through a one-shot adaptation building on MDEM techniques. MOMA performs scale-rotation-shift alignments during camera calibration, guided by sparse ground-truth depth points, enabling accurate depth estimation without additional data collection or model retraining on the testing setup. MOMA supports fine-tuning the MDEM on transparent objects, demonstrating strong generalization capabilities. Real-world experiments on tabletop 2-finger grasping and suction-based bin-picking applications show MOMA achieves high success rates in diverse tasks, confirming its effectiveness.
- Abstract(参考訳): 正確な6Dオブジェクトのポーズ推定は、ロボットの包括的および非包括的操作タスクを成功させるための前提条件である。
現在、ロボット操作のための6Dポーズ推定は、一般的に、構造化光、飛行時間、立体視に基づく深度センサーに依存しており、高価で(RGBカメラと比較して)ノイズの多い出力を生成し、透明な物体を処理できない。
一方、最先端単分子深度推定モデル(MDEM)は、未知のスケールとシフトまでのアフィン不変深度のみを提供する。
Metric MDEMは、公開データセット上でいくつかのゼロショット結果を達成するが、一般化に失敗する。
MDEM技術を用いたワンショット適応ビルディングにより,単一のRGB画像から距離深度を復元する新しいフレームワークであるモノクロワンショット距離アライメント(MOMA)を提案する。
MOMAは、カメラキャリブレーション中にスケール・ローテーション・シフトアライメントを実行し、スパース・グラウンド・トゥルース・ディープポイントでガイドし、テスト・セットアップ上で追加のデータ収集やモデル再トレーニングなしに正確な深度推定を可能にする。
MOMAは透明なオブジェクトに対するMDEMの微調整をサポートし、強力な一般化能力を示す。
テーブルトップ2指握りと吸引型ビンピッキングアプリケーションの実世界実験は、MOMAが様々なタスクで高い成功率を達成し、その有効性を確認していることを示している。
関連論文リスト
- Reasoning and Learning a Perceptual Metric for Self-Training of Reflective Objects in Bin-Picking with a Low-cost Camera [10.976379239028455]
低コストのRGB-Dカメラを用いた金属オブジェクトのビンピッキングは、しばしばスパース深度情報と反射面テクスチャに悩まされる。
本稿では,メートル法学習段階と自己学習段階からなる2段階の枠組みを提案する。
提案手法は,ROBIデータセットと新たに導入したSelf-ROBIデータセットの両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-26T04:03:51Z) - RoMeO: Robust Metric Visual Odometry [11.381243799745729]
ビジュアルオドメトリー(VO)は、視覚入力からカメラのポーズを推定することを目的としている。
既存のアプローチでは、この困難なシナリオ下で堅牢性が欠如し、目に見えないデータ(特に屋外)に一般化できない
本稿では,事前学習した深度モデルから,これらの問題を解決する新しい手法であるRoMeO(Roust Metric Visual Odometry)を提案する。
論文 参考訳(メタデータ) (2024-12-16T08:08:35Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。