論文の概要: Robust Double-Encoder Network for RGB-D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2210.02834v1
- Date: Thu, 6 Oct 2022 11:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:54:43.124662
- Title: Robust Double-Encoder Network for RGB-D Panoptic Segmentation
- Title(参考訳): RGB-Dパノプティブセグメンテーションのためのロバスト二重エンコーダネットワーク
- Authors: Matteo Sodano, Federico Magistri, Tiziano Guadagnino, Jens Behley,
Cyrill Stachniss
- Abstract要約: パノプティックセグメンテーションは、ピクセル単位のセマンティックラベルをインスタンスIDと共に計算することで、シーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 31.807572107839576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception is crucial for robots that act in real-world environments, as
autonomous systems need to see and understand the world around them to act
appropriately. Panoptic segmentation provides an interpretation of the scene by
computing a pixel-wise semantic label together with instance IDs. In this
paper, we address panoptic segmentation using RGB-D data of indoor scenes. We
propose a novel encoder-decoder neural network that processes RGB and depth
separately through two encoders. The features of the individual encoders are
progressively merged at different resolutions, such that the RGB features are
enhanced using complementary depth information. We propose a novel merging
approach called ResidualExcite, which reweighs each entry of the feature map
according to its importance. With our double-encoder architecture, we are
robust to missing cues. In particular, the same model can train and infer on
RGB-D, RGB-only, and depth-only input data, without the need to train
specialized models. We evaluate our method on publicly available datasets and
show that our approach achieves superior results compared to other common
approaches for panoptic segmentation.
- Abstract(参考訳): 自律システムは、周囲の世界を適切に観察し理解する必要があるため、現実の環境で行動するロボットには知覚が不可欠である。
パノプティックセグメンテーションは、ピクセル単位のセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では,室内シーンのRGB-Dデータを用いたパノプティカルセグメンテーションについて述べる。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
個々のエンコーダの特徴は異なる解像度で徐々にマージされ、rgbの特徴は相補的な深さ情報を用いて強化される。
本稿では,特徴マップの重要度に応じて各エントリを強調する,susentexciteと呼ばれる新しいマージ手法を提案する。
ダブルエンコーダアーキテクチャでは、欠けているヒントに対して堅牢です。
特に、同じモデルは、特殊なモデルを訓練することなく、RGB-D、RGB-only、deep-only入力データをトレーニングおよび推論することができる。
提案手法を公開データセット上で評価し,他の汎視的セグメンテーション手法と比較して優れた結果が得られることを示す。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation [16.721758280029302]
RGBDセマンティックセグメンテーションのための新しいアテンションベースデュアル教師付きデコーダを提案する。
エンコーダでは、マルチレベルペア補完情報を抽出し、融合するための、シンプルで効果的な注意に基づくマルチモーダル融合モジュールを設計する。
本手法は最先端の手法に対して優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-01-05T03:12:27Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。