Fugu-MT 論文翻訳(概要): Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation

論文の概要: Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation

arxiv url: http://arxiv.org/abs/2403.11511v1
Date: Mon, 18 Mar 2024 06:42:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 16:26:41.695570
Title: Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation
Title（参考訳）: グローバル-ローカルRGB-D適応を用いたSim-to-Real Grasp検出
Authors: Haoxiang Ma, Ran Qin, Modi shi, Boyang Gao, Di Huang,
Abstract要約: 本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。本稿では,RGBと深度データにおけるハイブリッドドメインギャップに対処し,マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。
参考スコア（独自算出の注目度）: 19.384129689848294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper focuses on the sim-to-real issue of RGB-D grasp detection and formulates it as a domain adaptation problem. In this case, we present a global-to-local method to address hybrid domain gaps in RGB and depth data and insufficient multi-modal feature alignment. First, a self-supervised rotation pre-training strategy is adopted to deliver robust initialization for RGB and depth networks. We then propose a global-to-local alignment pipeline with individual global domain classifiers for scene features of RGB and depth images as well as a local one specifically working for grasp features in the two modalities. In particular, we propose a grasp prototype adaptation module, which aims to facilitate fine-grained local feature alignment by dynamically updating and matching the grasp prototypes from the simulation and real-world scenarios throughout the training process. Due to such designs, the proposed method substantially reduces the domain shift and thus leads to consistent performance improvements. Extensive experiments are conducted on the GraspNet-Planar benchmark and physical environment, and superior results are achieved which demonstrate the effectiveness of our method.
Abstract（参考訳）: 本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。本稿では、RGBと深度データにおけるハイブリッドドメインギャップに対処し、マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。まず、RGBと深度ネットワークの堅牢な初期化を実現するために、自己監督型回転事前学習戦略を採用する。次に、RGBと深度画像のシーン特徴を個別に分類するグローバル・ローカルアライメントパイプラインと、2つのモードの特徴を具体的に把握するローカル・アライメントパイプラインを提案する。特に,学習過程を通じて,シミュレーションや実世界のシナリオから把握プロトタイプを動的に更新・整合させることにより,局所的特徴の微粒化を容易にすることを目的としたグリッププロトタイプ適応モジュールを提案する。このような設計により,提案手法は領域シフトを大幅に低減し,一貫した性能向上をもたらす。 GraspNet-Planarベンチマークと物理環境を用いて大規模な実験を行い,本手法の有効性を示す優れた結果を得た。

関連論文リスト

PEPR: Privileged Event-based Predictive Regularization for Domain Generalization [19.185122873391517]
本稿では,厳密な単一モダリティRGBモデルをトレーニングするための特権情報(LUPI)パラダイムを用いた学習環境下でのクロスモーダルフレームワークを提案する。イベントカメラを特権情報のソースとして利用し、トレーニング中にのみ利用可能です。 RGBエンコーダをPEPRでトレーニングし、イベントベースの潜伏特性を予測し、意味豊かさを犠牲にすることなくロバスト性を蒸留する。
論文参考訳（メタデータ） (2026-02-04T14:10:36Z)
RGBT-Ground Benchmark: Visual Grounding Beyond RGB in Complex Real-World Scenarios [37.32297511767527]
RGBT-Groundは、複雑な実世界のシナリオ向けに構築された最初の大規模ビジュアルグラウンドベンチマークである。空間的に整列したRGBと熱赤外(TIR)画像対と、高品質な参照表現、対応するオブジェクト境界ボックス、シーン、環境、オブジェクトレベルの細かいアノテーションから構成される。このベンチマークは、総合的な評価を可能にし、多様で挑戦的な条件下での堅牢な接地の研究を容易にする。
論文参考訳（メタデータ） (2025-12-31T02:01:02Z)
Dual-domain Adaptation Networks for Realistic Image Super-resolution [81.34345637776408]
現実画像超解像(SR)は、現実世界の低解像度(LR)画像を高解像度(HR)画像に変換することに焦点を当てている。現在の手法は、限られた現実世界のLR-HRデータと競合し、基本的な画像特徴の学習に影響を及ぼす。我々は、シミュレーションされた画像SRモデルを実世界のデータセットに効率よく適応できる新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-11-21T12:57:23Z)
HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。 DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。 3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-09-23T07:32:11Z)
RUN: Reversible Unfolding Network for Concealed Object Segmentation [61.13528324971598]
マスクドメインとRGBドメインの両方にわたる可逆戦略。マスクとRGBドメインをまたいだ可逆的戦略を適用したReversible Unfolding Network (RUN)を提案する。
論文参考訳（メタデータ） (2025-01-30T22:19:15Z)
VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文参考訳（メタデータ） (2024-12-28T07:38:23Z)
RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。 RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文参考訳（メタデータ） (2024-04-05T08:52:32Z)
Benchmarking Implicit Neural Representation and Geometric Rendering in Real-Time RGB-D SLAM [6.242958695705305]
インプシット・ニューラル表現(INR)と幾何学的レンダリングの組み合わせは、リアルタイム高密度RGB-D SLAMに採用されている。我々は、広く使われているINRとレンダリング関数の幅広いスペクトルの性能を評価するための、最初のオープンソースのベンチマークフレームワークを構築した。 RGB-D SLAMシステムに対応するために,高忠実度高密度グリッドマッピングのための明示的なハイブリッド符号化を提案する。
論文参考訳（メタデータ） (2024-03-28T14:59:56Z)
Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文参考訳（メタデータ） (2023-12-24T12:47:08Z)
One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文参考訳（メタデータ） (2022-12-14T15:54:15Z)
Unseen Object Instance Segmentation with Fully Test-time RGB-D Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。本稿では,Sim2Realドメイン間の適応プロセスを再強調する。本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-21T02:35:20Z)
Dual-Flow Transformation Network for Deformable Image Registration with Region Consistency Constraint [95.30864269428808]
現在のディープラーニング(DL)ベースの画像登録アプローチは、畳み込みニューラルネットワークを利用して、ある画像から別の画像への空間変換を学習する。一対のイメージ内のROIの類似性を最大化する領域整合性制約を持つ新しいデュアルフロー変換ネットワークを提案する。 4つの公開3次元MRIデータセットを用いた実験により,提案手法は精度と一般化において最高の登録性能が得られることを示した。
論文参考訳（メタデータ） (2021-12-04T05:30:44Z)
G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文参考訳（メタデータ） (2021-06-15T03:14:31Z)
Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。 BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文参考訳（メタデータ） (2021-02-11T12:00:24Z)
DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-10-01T17:44:25Z)
Domain-invariant Similarity Activation Map Contrastive Learning for Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。 CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文参考訳（メタデータ） (2020-09-16T14:43:22Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。