論文の概要: Scale Invariant Semantic Segmentation with RGB-D Fusion
- arxiv url: http://arxiv.org/abs/2204.04679v1
- Date: Sun, 10 Apr 2022 12:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:27:47.806122
- Title: Scale Invariant Semantic Segmentation with RGB-D Fusion
- Title(参考訳): rgb-d fusionを用いたスケール不変意味セグメンテーション
- Authors: Mohammad Dawud Ansari, Alwi Husada and Didier Stricker
- Abstract要約: RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
- 参考スコア(独自算出の注目度): 12.650574326251023
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a neural network architecture for scale-invariant
semantic segmentation using RGB-D images. We utilize depth information as an
additional modality apart from color images only. Especially in an outdoor
scene which consists of different scale objects due to the distance of the
objects from the camera. The near distance objects consist of significantly
more pixels than the far ones. We propose to incorporate depth information to
the RGB data for pixel-wise semantic segmentation to address the different
scale objects in an outdoor scene. We adapt to a well-known
DeepLab-v2(ResNet-101) model as our RGB baseline. Depth images are passed
separately as an additional input with a distinct branch. The intermediate
feature maps of both color and depth image branch are fused using a novel
fusion block. Our model is compact and can be easily applied to the other RGB
model. We perform extensive qualitative and quantitative evaluation on a
challenging dataset Cityscapes. The results obtained are comparable to the
state-of-the-art. Additionally, we evaluated our model on a self-recorded real
dataset. For the shake of extended evaluation of a driving scene with ground
truth we generated a synthetic dataset using popular vehicle simulation project
CARLA. The results obtained from the real and synthetic dataset shows the
effectiveness of our approach.
- Abstract(参考訳): 本稿では,rgb-d画像を用いたスケール不変意味セグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
我々は、カラー画像以外の追加のモダリティとして深度情報を利用する。
特に、カメラからの被写体の距離によって異なるスケールの被写体で構成される屋外シーンにおいて。
近距離オブジェクトは、遠距離オブジェクトよりもはるかに多くのピクセルから構成される。
本研究では,RGBデータに深度情報を組み込んで画素単位のセマンティックセグメンテーションを行い,屋外シーンにおける異なるスケールオブジェクトに対処する。
私たちはRGBベースラインとしてよく知られたDeepLab-v2(ResNet-101)モデルに対応しています。
深度画像は別個の分岐を持つ追加入力として別々に渡される。
色分枝と深度画像枝の中間特徴写像は、新しい融合ブロックを用いて融合される。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
挑戦的なデータセットであるCityscapesについて、定性的かつ定量的な評価を行う。
得られた結果は最先端技術に匹敵する。
さらに,自己記録した実データを用いて評価を行った。
基礎的真理を持つ運転シーンの広範な評価の揺らぎとして,人気のある車両シミュレーションプロジェクトcarlaを用いた合成データセットを作成した。
実データと合成データから得られた結果は,本手法の有効性を示している。
関連論文リスト
- RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation [21.950751953721817]
セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。
実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T03:21:55Z) - SPSN: Superpixel Prototype Sampling Network for RGB-D Salient Object
Detection [5.2134203335146925]
近年,RGB-D Salient Object Detection (SOD) が注目されている。
深層学習手法の進歩にもかかわらず、RGB-D SODは、RGB画像と深度マップと低品質深度マップとの間に大きな領域ギャップがあるため、依然として困難である。
本稿では,この問題を解決するために,新しいスーパーピクセルプロトタイプサンプリングネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-16T10:43:14Z) - Colored Point Cloud to Image Alignment [15.828285556159026]
そこで本研究では,カラーマッチングと幾何マッチングにより,色付き点雲を所定の色画像に整列する微分最適化手法を提案する。
カメラ画像と点雲の色との変換は、点雲の相対的な位置と一致した色とのマッチングを繰り返すことによって行う。
論文 参考訳(メタデータ) (2021-10-07T08:12:56Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Learning RGB-D Feature Embeddings for Unseen Object Instance
Segmentation [67.88276573341734]
合成データからRGB-D特徴埋め込みを学習し,オブジェクトのインスタンスセグメンテーションを未確認する手法を提案する。
距離学習損失関数を用いて画素単位の機能埋め込みを学習する。
新たな2段階クラスタリングアルゴリズムにより,セグメンテーションの精度をさらに向上する。
論文 参考訳(メタデータ) (2020-07-30T00:23:07Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - EPOS: Estimating 6D Pose of Objects with Symmetries [57.448933686429825]
1つのRGB入力から利用可能な3次元モデルを用いて、剛体物体の6次元ポーズを推定する新しい手法を提案する。
オブジェクトは、体系的な方法で対称性を許容するコンパクトな表面フラグメントによって表現される。
エンコーダデコーダネットワークを用いて,高密度サンプリング画素とフラグメントの対応性を予測する。
論文 参考訳(メタデータ) (2020-04-01T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。