論文の概要: 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2205.14575v1
- Date: Sun, 29 May 2022 06:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 13:26:09.753398
- Title: 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction
- Title(参考訳): 3d-c2ft:多視点3次元再構成用粗細変換器
- Authors: Leslie Ching Ow Tiong, Dick Sigmund, Andrew Beng Jin Teoh
- Abstract要約: 本稿では,多視点特徴を符号化し,欠陥のある3Dオブジェクトを修正するための3次元粗大変換器(3D-C2FT)を提案する。
C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。
実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 14.89364490991374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the transformer model has been successfully employed for the
multi-view 3D reconstruction problem. However, challenges remain on designing
an attention mechanism to explore the multiview features and exploit their
relations for reinforcing the encoding-decoding modules. This paper proposes a
new model, namely 3D coarse-to-fine transformer (3D-C2FT), by introducing a
novel coarse-to-fine(C2F) attention mechanism for encoding multi-view features
and rectifying defective 3D objects. C2F attention mechanism enables the model
to learn multi-view information flow and synthesize 3D surface correction in a
coarse to fine-grained manner. The proposed model is evaluated by ShapeNet and
Multi-view Real-life datasets. Experimental results show that 3D-C2FT achieves
notable results and outperforms several competing models on these datasets.
- Abstract(参考訳): 近年,多視点3次元再構成問題に対してトランスフォーマーモデルが適用されている。
しかし、マルチビュー機能を探究するためのアテンションメカニズムの設計や、エンコーディング・デコーディングモジュールの強化にそれらの関係を利用する上での課題が残っている。
本稿では、多視点特徴を符号化し、欠陥のある3Dオブジェクトを修正するための新しい粗粒度(C2F)アテンション機構を導入することで、3D粗粒度変換器(3D-C2FT)を提案する。
C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。
提案モデルはShapeNetとMulti-view Real-lifeデータセットを用いて評価する。
実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
関連論文リスト
- Self-augmented Gaussian Splatting with Structure-aware Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成は、コンピュータビジョンにおいて非常に難しい課題である。
本稿では,構造対応マスクにより拡張された自己拡張型粗大なガウススプラッティングパラダイムを提案する。
本手法は,知覚的品質と効率の両面において,スパース入力ビューの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-09T03:09:22Z) - Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - 3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.749406324648861]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。
我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:46Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - PlankAssembly: Robust 3D Reconstruction from Three Orthographic Views
with Learnt Shape Programs [24.09764733540401]
本研究では、3つの正書法からの2次元線図を3次元CADモデルに自動変換する手法を開発した。
我々はトランスフォーマーに基づくシーケンス生成モデルにおける注意機構を利用して、入力と出力の間の柔軟なマッピングを学習する。
提案手法は,入力がノイズや不完全である場合,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2023-08-10T17:59:34Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。