論文の概要: NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and
Repulsive UDF
- arxiv url: http://arxiv.org/abs/2307.09112v2
- Date: Tue, 21 Nov 2023 07:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:05:39.185251
- Title: NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and
Repulsive UDF
- Title(参考訳): NU-MCC:周辺デコーダと反発型UDFを用いたマルチビュー圧縮符号化
- Authors: Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee
- Abstract要約: NU-MCCと呼ばれる新しい3次元再構成手法を提案する。
NU-MCCには、近隣デコーダとRepulsive Unsigned Distance Functionという2つの重要なイノベーションが含まれている。
NU-MCCは強力な3D表現を学べることが示され, 単視点3D再構成における技術状況が著しく向上した。
- 参考スコア(独自算出の注目度): 71.99426785065552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remarkable progress has been made in 3D reconstruction from single-view RGB-D
inputs. MCC is the current state-of-the-art method in this field, which
achieves unprecedented success by combining vision Transformers with
large-scale training. However, we identified two key limitations of MCC: 1) The
Transformer decoder is inefficient in handling large number of query points; 2)
The 3D representation struggles to recover high-fidelity details. In this
paper, we propose a new approach called NU-MCC that addresses these
limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a
Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood
decoder introduces center points as an efficient proxy of input visual
features, allowing each query point to only attend to a small neighborhood.
This design not only results in much faster inference speed but also enables
the exploitation of finer-scale visual features for improved recovery of 3D
textures. Second, our Repulsive UDF is a novel alternative to the occupancy
field used in MCC, significantly improving the quality of 3D object
reconstruction. Compared to standard UDFs that suffer from holes in results,
our proposed Repulsive UDF can achieve more complete surface reconstruction.
Experimental results demonstrate that NU-MCC is able to learn a strong 3D
representation, significantly advancing the state of the art in single-view 3D
reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the
F1-score on the CO3D-v2 dataset with more than 5x faster running speed.
- Abstract(参考訳): シングルビューのRGB-D入力からの3D再構成で顕著な進歩が見られた。
MCCはこの分野で現在最先端の手法であり、視覚変換器と大規模訓練を組み合わせることで前例のない成功を収めている。
しかし、mccの2つの重要な制限を特定しました。
1) トランスフォーマーデコーダは,多数のクエリポイントを扱うのに非効率である。
2)3D表現は,高忠実度の詳細の回復に苦慮している。
本稿では,これらの制約に対処するNU-MCCという新しい手法を提案する。
NU-MCCには、近隣デコーダとRepulsive Unsigned Distance Function (Repulsive UDF)の2つの重要なイノベーションが含まれている。
まず,我々の近所デコーダは,入力視覚機能の効率的なプロキシとしてセンターポイントを導入し,各クエリポイントが小さな近傍にのみ出席できるようにした。
この設計は推論速度をはるかに速くするだけでなく、3次元テクスチャの回復を改善するため、より微細な視覚的特徴の活用を可能にする。
第2に,我々のRepulsive UDFはMCCの占有領域に代わる新しい代替品であり,3次元オブジェクト再構成の精度を著しく向上させる。
従来のUDFと比較すると,提案するUDFはより完全な表面再構成を実現することができる。
実験により, NU-MCCは強い3次元表現を学習でき, 単視点3次元再構成における技量を著しく向上できることが示された。
特に、CO3D-v2データセットのF1スコアでMCCを9.7%上回り、実行速度は5倍以上である。
関連論文リスト
- MinkUNeXt: Point Cloud-based Large-scale Place Recognition using 3D
Sparse Convolutions [1.124958340749622]
MinkUNeXtは、新しい3D MinkNeXt Blockをベースとした、ポイントクラウドからの位置認識のための効率的かつ効率的なアーキテクチャである。
提案の徹底的な評価は、Oxford RobotCarとIn-houseデータセットを用いて行われている。
論文 参考訳(メタデータ) (2024-03-12T12:25:54Z) - COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-12-04T14:23:18Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Image Reconstruction for Accelerated MR Scan with Faster Fourier
Convolutional Neural Networks [87.87578529398019]
部分走査は、磁気共鳴イメージング(MRI)データ取得を2次元および3次元の両方で加速する一般的な手法である。
本稿では,Faster Fourier Convolution (FasterFC) と呼ばれる新しい畳み込み演算子を提案する。
2次元加速MRI法であるFasterFC-End-to-End-VarNetは、FasterFCを用いて感度マップと再構成品質を改善する。
k空間領域再構成を誘導する単一グループアルゴリズムを用いたFasterFC-based Single-to-group Network (FAS-Net) と呼ばれる3次元加速MRI法
論文 参考訳(メタデータ) (2023-06-05T13:53:57Z) - 2S-UDF: A Novel Two-stage UDF Learning Method for Robust Non-watertight Model Reconstruction from Multi-view Images [12.076881343401329]
多視点画像から高品質なUDFを学習するための新しい2段階アルゴリズム2S-UDFを提案する。
定量的な測定値と視覚的品質の両方において、この結果は他のUDF学習技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-03-27T16:35:28Z) - Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery
with Transformers [17.22112222736234]
トランスフォーマーエンコーダアーキテクチャは近年,モノキュラー3次元メッシュ再構築における最先端の成果を達成している。
メモリのオーバーヘッドが大きく、推論速度が遅いため、そのようなモデルを実用的な用途に展開することは困難である。
本稿では,FastMETROと呼ばれる単一画像からの3次元メッシュ再構成のためのトランスフォーマエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-27T22:54:09Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Multiresolution Deep Implicit Functions for 3D Shape Representation [30.45961142799784]
細かな幾何学的詳細を復元できる階層型表現であるMDIF(Multi resolution Deep Implicit Function)を導入する。
我々のモデルは、遅延格子の階層構造を持つ複雑な3次元形状を表現し、様々な詳細レベルにデコードでき、精度も向上する。
論文 参考訳(メタデータ) (2021-09-12T19:14:51Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。