論文の概要: Project-and-Fuse: Improving RGB-D Semantic Segmentation via Graph Convolution Networks
- arxiv url: http://arxiv.org/abs/2501.18851v1
- Date: Fri, 31 Jan 2025 02:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:00.173159
- Title: Project-and-Fuse: Improving RGB-D Semantic Segmentation via Graph Convolution Networks
- Title(参考訳): Project-and-Fuse: グラフ畳み込みネットワークによるRGB-Dセマンティックセグメンテーションの改善
- Authors: Xiaoyan Jiang, Bohan Wang, Xinlong Wan, Zhi Zhou, Hamido Fujita,
- Abstract要約: テクスチャの特徴によって幾何的特徴注入を導出する後期融合スタイルの2つのモードから特徴を融合する。
3D特徴抽出の段階では,従来のCNNは深度マップでは十分ではない。
プロジェクション行列生成段階では、元のパイプラインにバイアス・アサインメントとアンビグラス・ローカリティの問題が存在することが分かる。
- 参考スコア(独自算出の注目度): 21.713293775719414
- License:
- Abstract: Most existing RGB-D semantic segmentation methods focus on the feature level fusion, including complex cross-modality and cross-scale fusion modules. However, these methods may cause misalignment problem in the feature fusion process and counter-intuitive patches in the segmentation results. Inspired by the popular pixel-node-pixel pipeline, we propose to 1) fuse features from two modalities in a late fusion style, during which the geometric feature injection is guided by texture feature prior; 2) employ Graph Neural Networks (GNNs) on the fused feature to alleviate the emergence of irregular patches by inferring patch relationship. At the 3D feature extraction stage, we argue that traditional CNNs are not efficient enough for depth maps. So, we encode depth map into normal map, after which CNNs can easily extract object surface tendencies.At projection matrix generation stage, we find the existence of Biased-Assignment and Ambiguous-Locality issues in the original pipeline. Therefore, we propose to 1) adopt the Kullback-Leibler Loss to ensure no missing important pixel features, which can be viewed as hard pixel mining process; 2) connect regions that are close to each other in the Euclidean space as well as in the semantic space with larger edge weights so that location informations can been considered. Extensive experiments on two public datasets, NYU-DepthV2 and SUN RGB-D, have shown that our approach can consistently boost the performance of RGB-D semantic segmentation task.
- Abstract(参考訳): 既存のRGB-Dセマンティックセグメンテーション手法は、複雑なクロスモダリティやクロススケールフュージョンモジュールを含む特徴レベルの融合に焦点を当てている。
しかし,これらの手法は,特徴融合過程における不一致問題や,セグメント化結果における反直感パッチの原因となる可能性がある。
人気のピクセル・ノード・ピクセル・パイプラインに触発されて,我々は提案する。
1) 幾何学的特徴注入に先立ってテクスチャ的特徴を導出する後期融合様式の2つのモードからのヒューズ的特徴
2) グラフニューラルネットワーク (GNN) を用いて, パッチ関係の推測による不規則なパッチの出現を緩和する。
3D特徴抽出の段階では,従来のCNNは深度マップでは十分ではない。
そこで,我々は深度マップを通常の地図にエンコードし,その後CNNが対象表面の傾向を容易に抽出する。
そこで,我々は提案する。
1) Kullback-Leibler Lossを採用して、重要な画素の特徴を欠くことなく、ハードピクセル採掘プロセスと見なすことができる。
2) ユークリッド空間, 意味空間, エッジウェイトが大きい領域を接続することにより, 位置情報を考慮できる。
2つの公開データセット(NYU-DepthV2とSUN RGB-D)に対する大規模な実験により、我々のアプローチは連続的にRGB-Dセマンティックセマンティックセグメンテーションタスクの性能を向上させることができることを示した。
関連論文リスト
- Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。