論文の概要: FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
- arxiv url: http://arxiv.org/abs/2404.00987v1
- Date: Mon, 1 Apr 2024 08:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:56:51.600200
- Title: FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
- Title(参考訳): FlexiDreamer: FlexiCubesによる単一画像から3D生成
- Authors: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu,
- Abstract要約: FlexiDreamerは、新しいイメージ・ツー・3d生成フレームワークである。
エンドツーエンドでターゲットメッシュを再構築する。
NVIDIA A100 GPUで1分間に1枚の画像から密集した3D構造を復元する。
- 参考スコア(独自算出の注目度): 20.871847154995688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D content generation from text prompts or single images has made remarkable progress in quality and speed recently. One of its dominant paradigms involves generating consistent multi-view images followed by a sparse-view reconstruction. However, due to the challenge of directly deforming the mesh representation to approach the target topology, most methodologies learn an implicit representation (such as NeRF) during the sparse-view reconstruction and acquire the target mesh by a post-processing extraction. Although the implicit representation can effectively model rich 3D information, its training typically entails a long convergence time. In addition, the post-extraction operation from the implicit field also leads to undesirable visual artifacts. In this paper, we propose FlexiDreamer, a novel single image-to-3d generation framework that reconstructs the target mesh in an end-to-end manner. By leveraging a flexible gradient-based extraction known as FlexiCubes, our method circumvents the defects brought by the post-processing and facilitates a direct acquisition of the target mesh. Furthermore, we incorporate a multi-resolution hash grid encoding scheme that progressively activates the encoding levels into the implicit field in FlexiCubes to help capture geometric details for per-step optimization. Notably, FlexiDreamer recovers a dense 3D structure from a single-view image in approximately 1 minute on a single NVIDIA A100 GPU, outperforming previous methodologies by a large margin.
- Abstract(参考訳): テキストプロンプトや単一画像からの3Dコンテンツ生成は、最近、品質とスピードが著しく進歩した。
その支配的なパラダイムの1つは、一貫した多視点画像の生成と、スパースビュー再構成である。
しかし、メッシュ表現を直接変形して対象のトポロジに近づくという課題のため、ほとんどの方法論はスパースビュー再構築中に暗黙の表現(NeRFなど)を学び、後処理抽出によってターゲットメッシュを取得する。
暗黙の表現は、リッチな3D情報を効果的にモデル化することができるが、その訓練は通常、長い収束時間を必要とする。
さらに、暗黙のフィールドからの抽出後の操作は、望ましくない視覚的アーティファクトにつながる。
本稿では,対象メッシュをエンドツーエンドに再構成する新しい画像から3d生成フレームワークであるFlexiDreamerを提案する。
フレキシキューブと呼ばれるフレキシブルな勾配に基づく抽出手法を利用することで, 後処理による欠陥を回避し, ターゲットメッシュの直接取得を容易にする。
さらに,FlexiCubesの暗黙のフィールドに段階的に符号化レベルを活性化するマルチレゾリューションハッシュグリッド符号化方式を導入し,ステップごとの最適化を行う。
特に、FlexiDreamerは、単一のNVIDIA A100 GPU上で1分ほどで、単一のビューイメージから高密度な3D構造を復元する。
関連論文リスト
- SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Delicate Textured Mesh Recovery from NeRF via Adaptive Surface
Refinement [78.48648360358193]
画像からテクスチャ化された表面メッシュを生成する新しいフレームワークを提案する。
我々のアプローチは、NeRFを用いて幾何学とビュー依存の外観を効率的に初期化することから始まります。
ジオメトリと共同で外観を洗練し、テクスチャ画像に変換してリアルタイムレンダリングします。
論文 参考訳(メタデータ) (2023-03-03T17:14:44Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。