論文の概要: Semantic Scene Completion with Multi-Feature Data Balancing Network
- arxiv url: http://arxiv.org/abs/2412.01431v1
- Date: Mon, 02 Dec 2024 12:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:08.714658
- Title: Semantic Scene Completion with Multi-Feature Data Balancing Network
- Title(参考訳): 多機能データバランシングネットワークを用いたセマンティックシーン補完
- Authors: Mona Alawadh, Mahesan Niranjan, Hansung Kim,
- Abstract要約: RGBおよび深度データ(F-TSDF)入力のためのデュアルヘッドモデルを提案する。
プリアクティベーション残余モジュールにおけるアイデンティティ変換を伴うハイブリッドエンコーダデコーダアーキテクチャは、F-TSDF内の多様な信号を効果的に管理する。
我々は,RGB特徴融合戦略を評価し,2次元RGB特徴量と重み付きクロスエントロピーを併用して3次元SSC予測を行う。
- 参考スコア(独自算出の注目度): 5.3431413737671525
- License:
- Abstract: Semantic Scene Completion (SSC) is a critical task in computer vision, that utilized in applications such as virtual reality (VR). SSC aims to construct detailed 3D models from partial views by transforming a single 2D image into a 3D representation, assigning each voxel a semantic label. The main challenge lies in completing 3D volumes with limited information, compounded by data imbalance, inter-class ambiguity, and intra-class diversity in indoor scenes. To address this, we propose the Multi-Feature Data Balancing Network (MDBNet), a dual-head model for RGB and depth data (F-TSDF) inputs. Our hybrid encoder-decoder architecture with identity transformation in a pre-activation residual module (ITRM) effectively manages diverse signals within F-TSDF. We evaluate RGB feature fusion strategies and use a combined loss function cross entropy for 2D RGB features and weighted cross-entropy for 3D SSC predictions. MDBNet results surpass comparable state-of-the-art (SOTA) methods on NYU datasets, demonstrating the effectiveness of our approach.
- Abstract(参考訳): セマンティック・シーン・コンプリート(Semantic Scene Completion, SSC)は、仮想現実(VR)などのアプリケーションで利用されるコンピュータビジョンにおける重要なタスクである。
SSCは、単一の2D画像を3D表現に変換し、各voxelにセマンティックラベルを割り当てることで、部分的なビューから詳細な3Dモデルを構築することを目的としている。
主な課題は、データ不均衡、クラス間のあいまいさ、クラス内の多様性によって、限られた情報で3Dボリュームを完成させることである。
これを解決するために,RGBと深度データ(F-TSDF)入力のためのデュアルヘッドモデルであるMulti-Feature Data Balancing Network (MDBNet)を提案する。
アクティベーション残余モジュール(ITRM)におけるアイデンティティ変換を伴うハイブリッドエンコーダデコーダアーキテクチャは、F-TSDF内の多様な信号を効果的に管理する。
我々は,RGB特徴融合戦略を評価し,2次元RGB特徴量と重み付きクロスエントロピーを併用して3次元SSC予測を行う。
MDBNetの結果は、NYUデータセット上のSOTA(State-of-the-art)メソッドに比較して、我々のアプローチの有効性を実証している。
関連論文リスト
- Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Towards Balanced RGB-TSDF Fusion for Consistent Semantic Scene Completion by 3D RGB Feature Completion and a Classwise Entropy Loss Function [10.22925811541619]
RGB-TSDF 融合は非自明なものと考えられており、一般的に使用されるナイーブ付加は矛盾する結果をもたらす。
本稿では、3D RGB機能補完モジュールを備えた2段階ネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-25T15:56:51Z) - Large Generative Model Assisted 3D Semantic Communication [51.17527319441436]
本稿では,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。
まず,ユーザ要求に基づいて3次元シナリオからキーセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティクスを抽出する。
次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。
最後に、物理チャネルのチャネル状態情報(CSI)を推定・精査するために、条件付き生成逆数ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。
論文 参考訳(メタデータ) (2024-03-09T03:33:07Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors [1.0973642726108543]
本稿では,新しいマルチモーダル3DディープCNNであるSPAwNを紹介する。
この分野で重要な課題は、完全にラベル付けされた現実世界の3Dデータセットがないことである。
本稿では,マルチモーダルSCネットワークに適用可能な3次元データ拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-11-26T04:08:34Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - Spatial Information Guided Convolution for Real-Time RGBD Semantic
Segmentation [79.78416804260668]
本稿では,効率的なRGB機能と3次元空間情報統合を実現するための空間情報ガイドコンボリューション(S-Conv)を提案する。
S-Convは、3次元空間情報によって導かれる畳み込みカーネルのサンプリングオフセットを推測する能力を有する。
我々はさらにS-Convを空間情報ガイド畳み込みネットワーク(SGNet)と呼ばれるセグメンテーションネットワークに組み込みます。
論文 参考訳(メタデータ) (2020-04-09T13:38:05Z) - Attention-based Multi-modal Fusion Network for Semantic Scene Completion [35.93265545962268]
本稿では,セマンティック・シーン・コンプリート(SSC)タスクのための,アテンションベースマルチモーダル・フュージョン・ネットワーク(AMFNet)というエンドツーエンドの3D畳み込みネットワークを提案する。
RGB-D画像から抽出した意味的特徴のみを利用する従来の手法と比較して,提案するAMFNetは,効果的な3Dシーン補完とセマンティックセグメンテーションを同時に行うことを学習する。
2次元セマンティックセグメンテーションと、3次元セマンティックコンプリートネットワークにより強化されたマルチモーダルフュージョンアーキテクチャを用いて実現されている。
論文 参考訳(メタデータ) (2020-03-31T02:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。