論文の概要: Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation
- arxiv url: http://arxiv.org/abs/2403.11511v1
- Date: Mon, 18 Mar 2024 06:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:26:41.695570
- Title: Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation
- Title(参考訳): グローバル-ローカルRGB-D適応を用いたSim-to-Real Grasp検出
- Authors: Haoxiang Ma, Ran Qin, Modi shi, Boyang Gao, Di Huang,
- Abstract要約: 本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。
本稿では,RGBと深度データにおけるハイブリッドドメインギャップに対処し,マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。
- 参考スコア(独自算出の注目度): 19.384129689848294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the sim-to-real issue of RGB-D grasp detection and formulates it as a domain adaptation problem. In this case, we present a global-to-local method to address hybrid domain gaps in RGB and depth data and insufficient multi-modal feature alignment. First, a self-supervised rotation pre-training strategy is adopted to deliver robust initialization for RGB and depth networks. We then propose a global-to-local alignment pipeline with individual global domain classifiers for scene features of RGB and depth images as well as a local one specifically working for grasp features in the two modalities. In particular, we propose a grasp prototype adaptation module, which aims to facilitate fine-grained local feature alignment by dynamically updating and matching the grasp prototypes from the simulation and real-world scenarios throughout the training process. Due to such designs, the proposed method substantially reduces the domain shift and thus leads to consistent performance improvements. Extensive experiments are conducted on the GraspNet-Planar benchmark and physical environment, and superior results are achieved which demonstrate the effectiveness of our method.
- Abstract(参考訳): 本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。
本稿では、RGBと深度データにおけるハイブリッドドメインギャップに対処し、マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。
まず、RGBと深度ネットワークの堅牢な初期化を実現するために、自己監督型回転事前学習戦略を採用する。
次に、RGBと深度画像のシーン特徴を個別に分類するグローバル・ローカルアライメントパイプラインと、2つのモードの特徴を具体的に把握するローカル・アライメントパイプラインを提案する。
特に,学習過程を通じて,シミュレーションや実世界のシナリオから把握プロトタイプを動的に更新・整合させることにより,局所的特徴の微粒化を容易にすることを目的としたグリッププロトタイプ適応モジュールを提案する。
このような設計により,提案手法は領域シフトを大幅に低減し,一貫した性能向上をもたらす。
GraspNet-Planarベンチマークと物理環境を用いて大規模な実験を行い,本手法の有効性を示す優れた結果を得た。
関連論文リスト
- RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。
特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。
RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文 参考訳(メタデータ) (2024-04-05T08:52:32Z) - Benchmarking Implicit Neural Representation and Geometric Rendering in Real-Time RGB-D SLAM [6.242958695705305]
インプシット・ニューラル表現(INR)と幾何学的レンダリングの組み合わせは、リアルタイム高密度RGB-D SLAMに採用されている。
我々は、広く使われているINRとレンダリング関数の幅広いスペクトルの性能を評価するための、最初のオープンソースのベンチマークフレームワークを構築した。
RGB-D SLAMシステムに対応するために,高忠実度高密度グリッドマッピングのための明示的なハイブリッド符号化を提案する。
論文 参考訳(メタデータ) (2024-03-28T14:59:56Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Dual-Flow Transformation Network for Deformable Image Registration with
Region Consistency Constraint [95.30864269428808]
現在のディープラーニング(DL)ベースの画像登録アプローチは、畳み込みニューラルネットワークを利用して、ある画像から別の画像への空間変換を学習する。
一対のイメージ内のROIの類似性を最大化する領域整合性制約を持つ新しいデュアルフロー変換ネットワークを提案する。
4つの公開3次元MRIデータセットを用いた実験により,提案手法は精度と一般化において最高の登録性能が得られることを示した。
論文 参考訳(メタデータ) (2021-12-04T05:30:44Z) - G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person
Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。
本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文 参考訳(メタデータ) (2021-06-15T03:14:31Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。