論文の概要: Freeplane: Unlocking Free Lunch in Triplane-Based Sparse-View Reconstruction Models
- arxiv url: http://arxiv.org/abs/2406.00750v1
- Date: Sun, 2 Jun 2024 14:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:36:42.527679
- Title: Freeplane: Unlocking Free Lunch in Triplane-Based Sparse-View Reconstruction Models
- Title(参考訳): フリープレーン:トリプレーンベーススパースビューリコンストラクションモデルでフリーランチをアンロック
- Authors: Wenqiang Sun, Zhengyi Wang, Shuo Chen, Yikai Wang, Zilong Chen, Jun Zhu, Jun Zhang,
- Abstract要約: textbfFrequency modulattextbfed tritextbfplane(textbfFreeplane)を提案する。
まず, フィードフォワード法における三面体の役割を解析し, 不整合多視点画像が三面体に高周波アーティファクトを導入し, 高品質な3Dメッシュを実現することを発見した。
- 参考スコア(独自算出の注目度): 25.482316017879327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating 3D assets from single-view images is a complex task that demands a deep understanding of the world. Recently, feed-forward 3D generative models have made significant progress by training large reconstruction models on extensive 3D datasets, with triplanes being the preferred 3D geometry representation. However, effectively utilizing the geometric priors of triplanes, while minimizing artifacts caused by generated inconsistent multi-view images, remains a challenge. In this work, we present \textbf{Fre}quency modulat\textbf{e}d tri\textbf{plane} (\textbf{Freeplane}), a simple yet effective method to improve the generation quality of feed-forward models without additional training. We first analyze the role of triplanes in feed-forward methods and find that the inconsistent multi-view images introduce high-frequency artifacts on triplanes, leading to low-quality 3D meshes. Based on this observation, we propose strategically filtering triplane features and combining triplanes before and after filtering to produce high-quality textured meshes. These techniques incur no additional cost and can be seamlessly integrated into pre-trained feed-forward models to enhance their robustness against the inconsistency of generated multi-view images. Both qualitative and quantitative results demonstrate that our method improves the performance of feed-forward models by simply modulating triplanes. All you need is to modulate the triplanes during inference.
- Abstract(参考訳): シングルビュー画像から3Dアセットを作成することは、世界の深い理解を必要とする複雑な作業である。
近年、フィードフォワード3次元生成モデルは、大規模な3次元データセットの再構成モデルをトレーニングすることで大きな進歩を遂げている。
しかし、トリプレーンの幾何学的先行を効果的に活用する一方で、生成した不整合多視点画像によるアーティファクトの最小化は依然として課題である。
そこで本研究では, フィードフォワードモデルの生成品質を向上させるための簡易かつ効果的な方法である, {\displaystyle \textbf{Fre}quency modulat\textbf{e}d tri\textbf{plane} (\textbf{Freeplane})を提案する。
まず, フィードフォワード法における三面体の役割を解析し, 不整合多視点画像が三面体に高周波アーティファクトを導入し, 高品質な3Dメッシュを実現することを発見した。
そこで本研究では, 3面体の特徴を戦略的にフィルタリングし, フィルター前後に3面体を組み合わせることで, 高品質なテクスチャメッシュを創出する手法を提案する。
これらの技術は追加コストを伴わず、トレーニング済みフィードフォワードモデルにシームレスに統合することで、生成されたマルチビュー画像の不整合に対するロバスト性を高めることができる。
定性的かつ定量的な結果から, 簡単な三葉飛行機の制御により, フィードフォワードモデルの性能が向上することが示唆された。
推論中に三葉飛行機を調節するだけでいいのです。
関連論文リスト
- LiftRefine: Progressively Refined View Synthesis from 3D Lifting with Volume-Triplane Representations [21.183524347952762]
単視点または少数視点の入力画像から3次元のニューラルフィールドを用いた新しいビュー合成法を提案する。
我々の再構成モデルはまず、粗いスケールの3D表現として1つ以上の入力画像をボリュームから3D空間に持ち上げる。
我々の拡散モデルは、三面体からのレンダリング画像に欠けている詳細を幻覚させる。
論文 参考訳(メタデータ) (2024-12-19T02:23:55Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。
次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。
実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model [37.75256020559125]
本稿では,高忠実度フィードフォワード画像から3次元画像生成モデルを提案する。
ネットワーク設計に幾何学的事前情報を統合する必要性を強調した。
我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
論文 参考訳(メタデータ) (2024-03-08T04:25:29Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。