論文の概要: 3D Gated Recurrent Fusion for Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2002.07269v1
- Date: Mon, 17 Feb 2020 21:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 13:03:31.970130
- Title: 3D Gated Recurrent Fusion for Semantic Scene Completion
- Title(参考訳): セマンティック・シーン・コンプリートのための3D Gated Recurrent Fusion
- Authors: Yu Liu, Jie Li, Qingsen Yan, Xia Yuan, Chunxia Zhao, Ian Reid and
Cesar Cadena
- Abstract要約: 本稿では,セマンティック・シーン・コンプリート(SSC)タスクにおけるデータ融合の問題に取り組む。
本稿では,3次元ゲート型リカレント核融合ネットワーク(GRFNet)を提案する。
2つのベンチマークデータセットに対する実験は、SSCにおけるデータ融合のための提案されたGRFNetの優れた性能と有効性を示す。
- 参考スコア(独自算出の注目度): 32.86736222106503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper tackles the problem of data fusion in the semantic scene
completion (SSC) task, which can simultaneously deal with semantic labeling and
scene completion. RGB images contain texture details of the object(s) which are
vital for semantic scene understanding. Meanwhile, depth images capture
geometric clues of high relevance for shape completion. Using both RGB and
depth images can further boost the accuracy of SSC over employing one modality
in isolation. We propose a 3D gated recurrent fusion network (GRFNet), which
learns to adaptively select and fuse the relevant information from depth and
RGB by making use of the gate and memory modules. Based on the single-stage
fusion, we further propose a multi-stage fusion strategy, which could model the
correlations among different stages within the network. Extensive experiments
on two benchmark datasets demonstrate the superior performance and the
effectiveness of the proposed GRFNet for data fusion in SSC. Code will be made
available.
- Abstract(参考訳): 本稿では,セマンティック・シーン・コンプリート(ssc)タスクにおいて,意味的ラベリングとシーン・コンプリートを同時に処理できるデータ融合の問題に取り組む。
rgbイメージには、セマンティックなシーン理解に不可欠なオブジェクトのテクスチャの詳細が含まれている。
一方、深度画像は形状完成度の高い幾何学的手がかりを捉えている。
RGBと深度画像の両方を使用することで、SSCの精度をさらに高めることができる。
本稿では,ゲートとメモリモジュールを用いて,深度とrgbから関連する情報を適応的に選択・融合する3次元ゲートリカレント融合ネットワーク(grfnet)を提案する。
さらに,単段核融合に基づく多段核融合戦略を提案し,ネットワーク内の異なる段階間の相関関係をモデル化する。
2つのベンチマークデータセットに対する大規模な実験は、SSCにおけるデータ融合のための提案されたGRFNetの性能と有効性を示している。
コードは利用可能になる。
関連論文リスト
- MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything [1.5728609542259502]
本稿では,RGB-D画像におけるオブジェクトの堅牢な3次元セグメンテーションに適応した,徹底的なパイプラインであるFusionVisionを紹介する。
提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。
これらのコンポーネント間の相乗効果と3次元シーン理解への統合により、オブジェクトの検出とセグメンテーションの密接な融合が保証される。
論文 参考訳(メタデータ) (2024-02-29T22:59:27Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Deep Convolutional Sparse Coding Networks for Image Fusion [29.405149234582623]
深層学習は画像融合の重要なツールとして登場した。
本稿では,3種類の画像融合タスクのための3種類の深部畳み込みスパース符号化(CSC)ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-18T04:12:01Z) - Attention-based Multi-modal Fusion Network for Semantic Scene Completion [35.93265545962268]
本稿では,セマンティック・シーン・コンプリート(SSC)タスクのための,アテンションベースマルチモーダル・フュージョン・ネットワーク(AMFNet)というエンドツーエンドの3D畳み込みネットワークを提案する。
RGB-D画像から抽出した意味的特徴のみを利用する従来の手法と比較して,提案するAMFNetは,効果的な3Dシーン補完とセマンティックセグメンテーションを同時に行うことを学習する。
2次元セマンティックセグメンテーションと、3次元セマンティックコンプリートネットワークにより強化されたマルチモーダルフュージョンアーキテクチャを用いて実現されている。
論文 参考訳(メタデータ) (2020-03-31T02:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。