論文の概要: Attention-based Multi-modal Fusion Network for Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2003.13910v2
- Date: Thu, 16 Apr 2020 03:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:06:34.937755
- Title: Attention-based Multi-modal Fusion Network for Semantic Scene Completion
- Title(参考訳): セマンティクスシーン補完のための注意型マルチモーダル融合ネットワーク
- Authors: Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao and Yue Gao
- Abstract要約: 本稿では,セマンティック・シーン・コンプリート(SSC)タスクのための,アテンションベースマルチモーダル・フュージョン・ネットワーク(AMFNet)というエンドツーエンドの3D畳み込みネットワークを提案する。
RGB-D画像から抽出した意味的特徴のみを利用する従来の手法と比較して,提案するAMFNetは,効果的な3Dシーン補完とセマンティックセグメンテーションを同時に行うことを学習する。
2次元セマンティックセグメンテーションと、3次元セマンティックコンプリートネットワークにより強化されたマルチモーダルフュージョンアーキテクチャを用いて実現されている。
- 参考スコア(独自算出の注目度): 35.93265545962268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an end-to-end 3D convolutional network named
attention-based multi-modal fusion network (AMFNet) for the semantic scene
completion (SSC) task of inferring the occupancy and semantic labels of a
volumetric 3D scene from single-view RGB-D images. Compared with previous
methods which use only the semantic features extracted from RGB-D images, the
proposed AMFNet learns to perform effective 3D scene completion and semantic
segmentation simultaneously via leveraging the experience of inferring 2D
semantic segmentation from RGB-D images as well as the reliable depth cues in
spatial dimension. It is achieved by employing a multi-modal fusion
architecture boosted from 2D semantic segmentation and a 3D semantic completion
network empowered by residual attention blocks. We validate our method on both
the synthetic SUNCG-RGBD dataset and the real NYUv2 dataset and the results
show that our method respectively achieves the gains of 2.5% and 2.6% on the
synthetic SUNCG-RGBD dataset and the real NYUv2 dataset against the
state-of-the-art method.
- Abstract(参考訳): 本稿では,単一ビューRGB-D画像からボリューム3Dシーンの占有状況とセマンティックラベルを推定するセマンティックシーン完了(SSC)タスクに対して,アテンションベースマルチモーダルフュージョンネットワーク(AMFNet)と呼ばれるエンドツーエンドの3D畳み込みネットワークを提案する。
提案手法は,rgb-d画像から抽出した意味的特徴のみを用いる従来の手法と比較し,rgb-d画像から2次元意味的セグメンテーションを推定する経験と空間次元の信頼性の高い奥行き手がかりを活かして,効果的な3次元シーン補完と意味セグメンテーションを同時に行うことを学習する。
2次元セマンティックセグメンテーションと、3次元セマンティックコンプリートネットワークにより強化されたマルチモーダルフュージョンアーキテクチャを用いて実現されている。
本手法は,合成SUNCG-RGBDデータセットと実NYUv2データセットの両方で検証し,合成SUNCG-RGBDデータセットと実NYUv2データセットでそれぞれ2.5%と2.6%のゲインが得られることを示した。
関連論文リスト
- Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - 3D Gated Recurrent Fusion for Semantic Scene Completion [32.86736222106503]
本稿では,セマンティック・シーン・コンプリート(SSC)タスクにおけるデータ融合の問題に取り組む。
本稿では,3次元ゲート型リカレント核融合ネットワーク(GRFNet)を提案する。
2つのベンチマークデータセットに対する実験は、SSCにおけるデータ融合のための提案されたGRFNetの優れた性能と有効性を示す。
論文 参考訳(メタデータ) (2020-02-17T21:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。