論文の概要: 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2205.14575v1
- Date: Sun, 29 May 2022 06:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 13:26:09.753398
- Title: 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction
- Title(参考訳): 3d-c2ft:多視点3次元再構成用粗細変換器
- Authors: Leslie Ching Ow Tiong, Dick Sigmund, Andrew Beng Jin Teoh
- Abstract要約: 本稿では,多視点特徴を符号化し,欠陥のある3Dオブジェクトを修正するための3次元粗大変換器(3D-C2FT)を提案する。
C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。
実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 14.89364490991374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the transformer model has been successfully employed for the
multi-view 3D reconstruction problem. However, challenges remain on designing
an attention mechanism to explore the multiview features and exploit their
relations for reinforcing the encoding-decoding modules. This paper proposes a
new model, namely 3D coarse-to-fine transformer (3D-C2FT), by introducing a
novel coarse-to-fine(C2F) attention mechanism for encoding multi-view features
and rectifying defective 3D objects. C2F attention mechanism enables the model
to learn multi-view information flow and synthesize 3D surface correction in a
coarse to fine-grained manner. The proposed model is evaluated by ShapeNet and
Multi-view Real-life datasets. Experimental results show that 3D-C2FT achieves
notable results and outperforms several competing models on these datasets.
- Abstract(参考訳): 近年,多視点3次元再構成問題に対してトランスフォーマーモデルが適用されている。
しかし、マルチビュー機能を探究するためのアテンションメカニズムの設計や、エンコーディング・デコーディングモジュールの強化にそれらの関係を利用する上での課題が残っている。
本稿では、多視点特徴を符号化し、欠陥のある3Dオブジェクトを修正するための新しい粗粒度(C2F)アテンション機構を導入することで、3D粗粒度変換器(3D-C2FT)を提案する。
C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。
提案モデルはShapeNetとMulti-view Real-lifeデータセットを用いて評価する。
実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
関連論文リスト
- View Transformation Robustness for Multi-View 3D Object Reconstruction with Reconstruction Error-Guided View Selection [19.07686691657438]
ビュートランスフォーメーション・ロバストネス(VTR)は,深層学習に基づく多視点3次元オブジェクト再構成モデルにおいて重要である。
本稿では,3次元予測の空間分布を考慮した再構成誤り誘導ビュー選択法を提案する。
提案手法は、最先端の3D再構成法や、他のビュー変換ロバスト性比較法よりも優れている。
論文 参考訳(メタデータ) (2024-12-16T03:54:08Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - MVBoost: Boost 3D Reconstruction with Multi-View Refinement [41.46372172076206]
多様な3Dデータセットの不足は、3D再構成モデルの限定的な一般化能力をもたらす。
擬似GTデータを生成し,多視点補正(MVBoost)により3次元再構成を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:55:20Z) - Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - 3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.749406324648861]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。
我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:46Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - PlankAssembly: Robust 3D Reconstruction from Three Orthographic Views
with Learnt Shape Programs [24.09764733540401]
本研究では、3つの正書法からの2次元線図を3次元CADモデルに自動変換する手法を開発した。
我々はトランスフォーマーに基づくシーケンス生成モデルにおける注意機構を利用して、入力と出力の間の柔軟なマッピングを学習する。
提案手法は,入力がノイズや不完全である場合,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2023-08-10T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。