Fugu-MT 論文翻訳(概要): Anisotropic Convolutional Networks for 3D Semantic Scene Completion

論文の概要: Anisotropic Convolutional Networks for 3D Semantic Scene Completion

arxiv url: http://arxiv.org/abs/2004.02122v1
Date: Sun, 5 Apr 2020 07:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 13:03:38.890121
Title: Anisotropic Convolutional Networks for 3D Semantic Scene Completion
Title（参考訳）: 3次元シーン補完のための異方性畳み込みネットワーク
Authors: Jie Li, Kai Han, Peng Wang, Yu Liu, Xia Yuan
Abstract要約: セマンティックシーン補完(SSC)は、単一の深さおよび/またはRGB画像からシーンの占有度とセマンティックラベルを同時に推測しようとする。異方性畳み込みと呼ばれる新しいモジュールを提案する。固定された3次元受容場に制限される標準的な3次元畳み込みとは対照的に、我々のモジュールは次元異方性ボクセルを賢明にモデル化することができる。
参考スコア（独自算出の注目度）: 24.9671648682339
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As a voxel-wise labeling task, semantic scene completion (SSC) tries to simultaneously infer the occupancy and semantic labels for a scene from a single depth and/or RGB image. The key challenge for SSC is how to effectively take advantage of the 3D context to model various objects or stuffs with severe variations in shapes, layouts and visibility. To handle such variations, we propose a novel module called anisotropic convolution, which properties with flexibility and power impossible for the competing methods such as standard 3D convolution and some of its variations. In contrast to the standard 3D convolution that is limited to a fixed 3D receptive field, our module is capable of modeling the dimensional anisotropy voxel-wisely. The basic idea is to enable anisotropic 3D receptive field by decomposing a 3D convolution into three consecutive 1D convolutions, and the kernel size for each such 1D convolution is adaptively determined on the fly. By stacking multiple such anisotropic convolution modules, the voxel-wise modeling capability can be further enhanced while maintaining a controllable amount of model parameters. Extensive experiments on two SSC benchmarks, NYU-Depth-v2 and NYUCAD, show the superior performance of the proposed method. Our code is available at https://waterljwant.github.io/SSC/
Abstract（参考訳）: ボクセルワイドなラベリングタスクとして、セマンティックシーン補完(SSC)は、単一の深さおよび/またはRGB画像からシーンの占有度とセマンティックラベルを同時に推測しようとする。 SSCの鍵となる課題は、3Dコンテキストを効果的に活用して、形状、レイアウト、可視性に大きなバリエーションを持つさまざまなオブジェクトやものをモデル化する方法である。このような変動に対処するために、標準的な3D畳み込みやそのバリエーションといった競合する手法に対して、柔軟性とパワーを持つ特性を持つ異方性畳み込みと呼ばれる新しいモジュールを提案する。固定された3次元受容場に制限される標準的な3次元畳み込みとは対照的に、我々のモジュールは次元異方性ボクセルを賢明にモデル化することができる。基本的な考え方は、3D畳み込みを3つの連続した1D畳み込みに分解することで異方性3D受容場を実現し、そのような1D畳み込みごとにカーネルサイズを適応的に決定する。複数の異方性畳み込みモジュールを積み重ねることで、制御可能なモデルパラメータを保ちながら、ボクセルワイズ・モデリング能力をさらに強化することができる。 2つのSSCベンチマーク(NYU-Depth-v2とNYUCAD)において,提案手法の優れた性能を示す。私たちのコードはhttps://waterljwant.github.io/SSC/で利用可能です。

関連論文リスト

Rep3D: Re-parameterize Large 3D Kernels with Low-Rank Receptive Modeling for Medical Imaging [15.142146104837005]
Rep3Dは、学習可能な空間ボリュームを大規模なカーネルトレーニングに組み込む3D畳み込みフレームワークである。 Rep3Dは、3D画像解析のための解釈可能でスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-05-26T07:12:56Z)
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文参考訳（メタデータ） (2025-03-20T20:58:48Z)
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文参考訳（メタデータ） (2025-03-08T09:10:31Z)
DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-12-14T21:26:44Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文参考訳（メタデータ） (2023-04-17T13:49:04Z)
Group Shift Pointwise Convolution for Volumetric Medical Image Segmentation [31.72090839643412]
本稿では,3次元畳み込みの有効性と効率を向上させるために,GSP-Conv(Group Shift Pointwise Convolution)を提案する。 GSP-Convは1x1x1カーネルで3D畳み込みをポイントワイズに単純化し、モデルパラメータやFLOPの数を劇的に削減する。以上の結果から,本手法は3次元畳み込みモデルと同等あるいはそれ以上の性能が得られた。
論文参考訳（メタデータ） (2021-09-26T15:27:33Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文参考訳（メタデータ） (2020-04-21T13:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。