論文の概要: Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation
- arxiv url: http://arxiv.org/abs/2204.09847v1
- Date: Thu, 21 Apr 2022 02:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 14:26:27.054479
- Title: Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation
- Title(参考訳): 完全テスト時間rgb-d埋め込みによるunseenオブジェクトインスタンスセグメンテーション
- Authors: Lu Zhang, Siqi Zhang, Xu Yang, Zhiyong Liu
- Abstract要約: 最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.258456366985444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting unseen objects is a crucial ability for the robot since it may
encounter new environments during the operation. Recently, a popular solution
is leveraging RGB-D features of large-scale synthetic data and directly
applying the model to unseen real-world scenarios. However, even though depth
data have fair generalization ability, the domain shift due to the Sim2Real gap
is inevitable, which presents a key challenge to the unseen object instance
segmentation (UOIS) model. To tackle this problem, we re-emphasize the
adaptation process across Sim2Real domains in this paper. Specifically, we
propose a framework to conduct the Fully Test-time RGB-D Embeddings Adaptation
(FTEA) based on parameters of the BatchNorm layer. To construct the learning
objective for test-time back-propagation, we propose a novel non-parametric
entropy objective that can be implemented without explicit classification
layers. Moreover, we design a cross-modality knowledge distillation module to
encourage the information transfer during test time. The proposed method can be
efficiently conducted with test-time images, without requiring annotations or
revisiting the large-scale synthetic training data. Besides significant time
savings, the proposed method consistently improves segmentation results on both
overlap and boundary metrics, achieving state-of-the-art performances on two
real-world RGB-D image datasets. We hope our work could draw attention to the
test-time adaptation and reveal a promising direction for robot perception in
unseen environments.
- Abstract(参考訳): 動作中に新しい環境に遭遇する可能性があるため、見えない物体を分離することはロボットにとって重要な能力である。
近年,大規模合成データのRGB-D機能を活用し,実世界のシナリオにモデルを直接適用することが一般的である。
しかし、深度データにはある程度の一般化能力があるにもかかわらず、Sim2Realギャップによるドメインシフトは避けられず、未確認のオブジェクトインスタンスセグメンテーション(UOIS)モデルに重要な課題をもたらす。
そこで本論文では,Sim2Realドメイン間の適応プロセスを再強調する。
具体的には,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
テスト時間バックプロパゲーションのための学習目標を構築するために,明示的な分類層を使わずに実現可能な,新しい非パラメトリックエントロピー目的を提案する。
さらに,テスト時間における情報伝達を促進するため,モーダリティ間知識蒸留モジュールを設計する。
提案手法は,大規模合成トレーニングデータの再検討やアノテーションを必要とせず,テストタイムで効率的に実施することができる。
提案手法は,大幅な時間節約に加えて,重なり合いと境界値のセグメンテーション結果を常に改善し,実世界の2つのRGB-D画像データセットの最先端性能を実現する。
われわれの研究がテスト時間適応に注意を向け、目に見えない環境でロボットの知覚に期待できる方向を明らかにすることを願っている。
関連論文リスト
- Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation [19.384129689848294]
本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。
本稿では,RGBと深度データにおけるハイブリッドドメインギャップに対処し,マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T06:42:38Z) - RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant
Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。
オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-04T05:03:24Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Category-Level 6D Object Pose and Size Estimation using Self-Supervised
Deep Prior Deformation Networks [39.6823489555449]
オブジェクトのインスタンスとそのセマンティクスを3D空間で正確にアノテートすることは困難であり、これらのタスクには合成データが広く使われている。
本研究では,Sim2Realのタスク設定において,カテゴリレベルの6Dオブジェクトのポーズとサイズ推定のための教師なしドメイン適応を実現することを目的としている。
本稿では,新しいCAMERA Deep Prior deformation Network(DPDN)上に構築した手法を提案する。
論文 参考訳(メタデータ) (2022-07-12T10:24:52Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis [16.5390740005143]
NVIDIARTを用いて高次に最適化可能な,効率的かつ堅牢なRGB-Dセグメンテーション手法を提案する。
RGB-Dセグメンテーションは、RGB画像のみを処理するよりも優れており、ネットワークアーキテクチャが慎重に設計されている場合、リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-11-13T15:17:31Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Unseen Object Instance Segmentation for Robotic Environments [67.88276573341734]
本稿では,テーブルトップ環境において未確認のオブジェクトインスタンスをセグメント化する手法を提案する。
UOIS-Netは2つのステージで構成されている: まず、オブジェクトのインスタンス中心の投票を2Dまたは3Dで生成するために、深さでのみ動作する。
驚くべきことに、我々のフレームワークは、RGBが非フォトリアリスティックな合成RGB-Dデータから学習することができる。
論文 参考訳(メタデータ) (2020-07-16T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。