論文の概要: CSANet: Channel Spatial Attention Network for Robust 3D Face Alignment and Reconstruction
- arxiv url: http://arxiv.org/abs/2405.19659v1
- Date: Thu, 30 May 2024 03:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:16:37.211455
- Title: CSANet: Channel Spatial Attention Network for Robust 3D Face Alignment and Reconstruction
- Title(参考訳): CSANet:ロバスト3次元顔アライメントと再構成のためのチャネル空間アテンションネットワーク
- Authors: Yilin Liu, Xuezhou Guo, Xinqi Wang, Fangzhou Du,
- Abstract要約: 私たちのモデルのバックボーンは、分離可能な畳み込みによってBottle-Neck構造によって構築されます。
コーディネート・アテンション・メカニズムと空間群ワイド・エンハンスメントを統合し,より代表的な特徴を抽出する。
- 参考スコア(独自算出の注目度): 5.203021608374998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our project proposes an end-to-end 3D face alignment and reconstruction network. The backbone of our model is built by Bottle-Neck structure via Depth-wise Separable Convolution. We integrate Coordinate Attention mechanism and Spatial Group-wise Enhancement to extract more representative features. For more stable training process and better convergence, we jointly use Wing loss and the Weighted Parameter Distance Cost to learn parameters for 3D Morphable model and 3D vertices. Our proposed model outperforms all baseline models both quantitatively and qualitatively.
- Abstract(参考訳): 本稿では,エンドツーエンドの3次元顔アライメント・再構築ネットワークを提案する。
私たちのモデルのバックボーンは、Depth-wise Separable Convolutionを通じてBottle-Neck構造で構築されています。
コーディネート・アテンション・メカニズムと空間群ワイド・エンハンスメントを統合し,より代表的な特徴を抽出する。
より安定したトレーニングプロセスとより良い収束のために、Wing損失とWeighted Parameter Distance Costを併用して、3D Morphableモデルと3D頂点のパラメータを学習する。
提案手法は, 定量的, 定性的に全てのベースラインモデルより優れている。
関連論文リスト
- GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - 3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.749406324648861]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。
我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:46Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - FineRecon: Depth-aware Feed-forward Network for Detailed 3D
Reconstruction [13.157400338544177]
ポーズ画像からの3次元再構成に関する最近の研究は、深層ニューラルネットワークを用いてシーンレベルの3次元幾何を直接推定できることを実証している。
推論に基づく3次元再構成の忠実度を改善するための有効な3つの方法を提案する。
提案手法はスムーズかつ高精度な再構成を行い,多深度および3次元再構成の指標において顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-04-04T02:50:29Z) - CAPRI-Net: Learning Compact CAD Shapes with Adaptive Primitive Assembly [17.82598676258891]
3Dコンピュータ支援設計(CAD)モデルのコンパクトで解釈可能な暗黙表現を学習するためのニューラルネットワークCAPRI-Netを紹介します。
当社のネットワークは、ポイントクラウドまたはボキセルグリッドとして提供できる入力3D形状を取り、四面プリミティブのコンパクトなアセンブリによってそれを再構築します。
本研究では,これまでで最大かつ多種多様なCADデータセットであるShapeNetとABCの学習フレームワークを,再構築品質,形状エッジ,コンパクト性,解釈可能性の観点から評価した。
論文 参考訳(メタデータ) (2021-04-12T17:21:19Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。