論文の概要: Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention
- arxiv url: http://arxiv.org/abs/2405.11616v3
- Date: Wed, 27 Nov 2024 15:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:32.168348
- Title: Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention
- Title(参考訳): 効率的なRow-wise Attentionを用いた高分解能マルチビュー拡散
- Authors: Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, Wenping Wang, Qifeng Liu, Yike Guo,
- Abstract要約: 単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
- 参考スコア(独自算出の注目度): 87.02613021058484
- License:
- Abstract: In this paper, we introduce Era3D, a novel multiview diffusion method that generates high-resolution multiview images from a single-view image. Despite significant advancements in multiview generation, existing methods still suffer from camera prior mismatch, inefficacy, and low resolution, resulting in poor-quality multiview images. Specifically, these methods assume that the input images should comply with a predefined camera type, e.g. a perspective camera with a fixed focal length, leading to distorted shapes when the assumption fails. Moreover, the full-image or dense multiview attention they employ leads to an exponential explosion of computational complexity as image resolution increases, resulting in prohibitively expensive training costs. To bridge the gap between assumption and reality, Era3D first proposes a diffusion-based camera prediction module to estimate the focal length and elevation of the input image, which allows our method to generate images without shape distortions. Furthermore, a simple but efficient attention layer, named row-wise attention, is used to enforce epipolar priors in the multiview diffusion, facilitating efficient cross-view information fusion. Consequently, compared with state-of-the-art methods, Era3D generates high-quality multiview images with up to a 512*512 resolution while reducing computation complexity by 12x times. Comprehensive experiments demonstrate that Era3D can reconstruct high-quality and detailed 3D meshes from diverse single-view input images, significantly outperforming baseline multiview diffusion methods. Project page: https://penghtyx.github.io/Era3D/.
- Abstract(参考訳): 本稿では,単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
マルチビュー生成の大幅な進歩にもかかわらず、既存の手法はカメラ前のミスマッチ、非効率性、解像度の低さに悩まされ、結果として画質の悪いマルチビュー画像となる。
具体的には、入力画像は予め定義されたカメラタイプ、例えば焦点距離が一定である視点カメラに従わなければならないと仮定し、仮定が失敗すると歪んだ形状になる。
さらに、それらが採用するフルイメージや高密度なマルチビューの注目は、画像解像度が増大するにつれて、計算複雑性の爆発的な爆発を引き起こす。
仮定と現実のギャップを埋めるために、Era3Dはまず拡散型カメラ予測モジュールを提案し、入力画像の焦点長と高さを推定し、形状歪みのない画像を生成する。
さらに,多視点拡散の先駆的先行を強制するために,行ワイドアテンションと呼ばれるシンプルだが効率的なアテンション層が用いられ,効率的なクロスビュー情報融合が実現されている。
その結果、最先端の手法と比較して、Era3Dは最大512*512解像度の高品質なマルチビュー画像を生成し、計算複雑性を12倍に削減した。
総合的な実験により、Era3Dは様々な単一ビューの入力画像から高品質で詳細な3Dメッシュを再構築でき、ベースラインのマルチビュー拡散法よりも大幅に優れていることが示された。
プロジェクトページ: https://penghtyx.github.io/Era3D/。
関連論文リスト
- Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation [22.5996658181606]
2つの拡張モジュールと、上記の3つの問題に対処するための未投射操作を備えたFancy123を提案する。
外観強調モジュールは、2Dマルチビューイメージをリアルピクセルに変形させて、より優れたマルチビュー一貫性を実現する。
忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。
入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さが保証される。
論文 参考訳(メタデータ) (2024-11-25T08:31:55Z) - Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。