論文の概要: Anisotropic Convolutional Networks for 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2004.02122v1
- Date: Sun, 5 Apr 2020 07:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:03:38.890121
- Title: Anisotropic Convolutional Networks for 3D Semantic Scene Completion
- Title(参考訳): 3次元シーン補完のための異方性畳み込みネットワーク
- Authors: Jie Li, Kai Han, Peng Wang, Yu Liu, Xia Yuan
- Abstract要約: セマンティックシーン補完(SSC)は、単一の深さおよび/またはRGB画像からシーンの占有度とセマンティックラベルを同時に推測しようとする。
異方性畳み込みと呼ばれる新しいモジュールを提案する。
固定された3次元受容場に制限される標準的な3次元畳み込みとは対照的に、我々のモジュールは次元異方性ボクセルを賢明にモデル化することができる。
- 参考スコア(独自算出の注目度): 24.9671648682339
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As a voxel-wise labeling task, semantic scene completion (SSC) tries to
simultaneously infer the occupancy and semantic labels for a scene from a
single depth and/or RGB image. The key challenge for SSC is how to effectively
take advantage of the 3D context to model various objects or stuffs with severe
variations in shapes, layouts and visibility. To handle such variations, we
propose a novel module called anisotropic convolution, which properties with
flexibility and power impossible for the competing methods such as standard 3D
convolution and some of its variations. In contrast to the standard 3D
convolution that is limited to a fixed 3D receptive field, our module is
capable of modeling the dimensional anisotropy voxel-wisely. The basic idea is
to enable anisotropic 3D receptive field by decomposing a 3D convolution into
three consecutive 1D convolutions, and the kernel size for each such 1D
convolution is adaptively determined on the fly. By stacking multiple such
anisotropic convolution modules, the voxel-wise modeling capability can be
further enhanced while maintaining a controllable amount of model parameters.
Extensive experiments on two SSC benchmarks, NYU-Depth-v2 and NYUCAD, show the
superior performance of the proposed method. Our code is available at
https://waterljwant.github.io/SSC/
- Abstract(参考訳): ボクセルワイドなラベリングタスクとして、セマンティックシーン補完(SSC)は、単一の深さおよび/またはRGB画像からシーンの占有度とセマンティックラベルを同時に推測しようとする。
SSCの鍵となる課題は、3Dコンテキストを効果的に活用して、形状、レイアウト、可視性に大きなバリエーションを持つさまざまなオブジェクトやものをモデル化する方法である。
このような変動に対処するために、標準的な3D畳み込みやそのバリエーションといった競合する手法に対して、柔軟性とパワーを持つ特性を持つ異方性畳み込みと呼ばれる新しいモジュールを提案する。
固定された3次元受容場に制限される標準的な3次元畳み込みとは対照的に、我々のモジュールは次元異方性ボクセルを賢明にモデル化することができる。
基本的な考え方は、3D畳み込みを3つの連続した1D畳み込みに分解することで異方性3D受容場を実現し、そのような1D畳み込みごとにカーネルサイズを適応的に決定する。
複数の異方性畳み込みモジュールを積み重ねることで、制御可能なモデルパラメータを保ちながら、ボクセルワイズ・モデリング能力をさらに強化することができる。
2つのSSCベンチマーク(NYU-Depth-v2とNYUCAD)において,提案手法の優れた性能を示す。
私たちのコードはhttps://waterljwant.github.io/SSC/で利用可能です。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [62.92182845878669]
カジュアルビデオから変形可能な3Dオブジェクトをモデリングする際の課題に焦点をあてる。
最近の研究は、標準-観測変換を達成するために線形ブレンドスキン(LBS)に依存している。
ニューラル双対四元混合スキン(NeuDBS)を用いて3次元点変形を実現する。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - Group Shift Pointwise Convolution for Volumetric Medical Image
Segmentation [31.72090839643412]
本稿では,3次元畳み込みの有効性と効率を向上させるために,GSP-Conv(Group Shift Pointwise Convolution)を提案する。
GSP-Convは1x1x1カーネルで3D畳み込みをポイントワイズに単純化し、モデルパラメータやFLOPの数を劇的に削減する。
以上の結果から,本手法は3次元畳み込みモデルと同等あるいはそれ以上の性能が得られた。
論文 参考訳(メタデータ) (2021-09-26T15:27:33Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - A Fast Hybrid Cascade Network for Voxel-based 3D Object Classification [10.019858113123822]
ボクセルに基づく3次元オブジェクト分類のためのハイブリッドカスケードアーキテクチャを提案する。
提案手法では,精度と速度の両立が可能である。
論文 参考訳(メタデータ) (2020-11-09T15:58:33Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。