論文の概要: FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
- arxiv url: http://arxiv.org/abs/2404.00987v1
- Date: Mon, 1 Apr 2024 08:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:56:51.600200
- Title: FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
- Title(参考訳): FlexiDreamer: FlexiCubesによる単一画像から3D生成
- Authors: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu,
- Abstract要約: FlexiDreamerは、新しいイメージ・ツー・3d生成フレームワークである。
エンドツーエンドでターゲットメッシュを再構築する。
NVIDIA A100 GPUで1分間に1枚の画像から密集した3D構造を復元する。
- 参考スコア(独自算出の注目度): 20.871847154995688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D content generation from text prompts or single images has made remarkable progress in quality and speed recently. One of its dominant paradigms involves generating consistent multi-view images followed by a sparse-view reconstruction. However, due to the challenge of directly deforming the mesh representation to approach the target topology, most methodologies learn an implicit representation (such as NeRF) during the sparse-view reconstruction and acquire the target mesh by a post-processing extraction. Although the implicit representation can effectively model rich 3D information, its training typically entails a long convergence time. In addition, the post-extraction operation from the implicit field also leads to undesirable visual artifacts. In this paper, we propose FlexiDreamer, a novel single image-to-3d generation framework that reconstructs the target mesh in an end-to-end manner. By leveraging a flexible gradient-based extraction known as FlexiCubes, our method circumvents the defects brought by the post-processing and facilitates a direct acquisition of the target mesh. Furthermore, we incorporate a multi-resolution hash grid encoding scheme that progressively activates the encoding levels into the implicit field in FlexiCubes to help capture geometric details for per-step optimization. Notably, FlexiDreamer recovers a dense 3D structure from a single-view image in approximately 1 minute on a single NVIDIA A100 GPU, outperforming previous methodologies by a large margin.
- Abstract(参考訳): テキストプロンプトや単一画像からの3Dコンテンツ生成は、最近、品質とスピードが著しく進歩した。
その支配的なパラダイムの1つは、一貫した多視点画像の生成と、スパースビュー再構成である。
しかし、メッシュ表現を直接変形して対象のトポロジに近づくという課題のため、ほとんどの方法論はスパースビュー再構築中に暗黙の表現(NeRFなど)を学び、後処理抽出によってターゲットメッシュを取得する。
暗黙の表現は、リッチな3D情報を効果的にモデル化することができるが、その訓練は通常、長い収束時間を必要とする。
さらに、暗黙のフィールドからの抽出後の操作は、望ましくない視覚的アーティファクトにつながる。
本稿では,対象メッシュをエンドツーエンドに再構成する新しい画像から3d生成フレームワークであるFlexiDreamerを提案する。
フレキシキューブと呼ばれるフレキシブルな勾配に基づく抽出手法を利用することで, 後処理による欠陥を回避し, ターゲットメッシュの直接取得を容易にする。
さらに,FlexiCubesの暗黙のフィールドに段階的に符号化レベルを活性化するマルチレゾリューションハッシュグリッド符号化方式を導入し,ステップごとの最適化を行う。
特に、FlexiDreamerは、単一のNVIDIA A100 GPU上で1分ほどで、単一のビューイメージから高密度な3D構造を復元する。
関連論文リスト
- InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。
最新世代の品質とトレーニングのスケーラビリティが特徴だ。
InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文 参考訳(メタデータ) (2024-04-10T17:48:37Z) - CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model [37.75256020559125]
本稿では,高忠実度フィードフォワード画像から3次元画像生成モデルを提案する。
ネットワーク設計に幾何学的事前情報を統合する必要性を強調した。
我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
論文 参考訳(メタデータ) (2024-03-08T04:25:29Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Consistent Mesh Diffusion [8.318075237885857]
UVパラメータ化による3Dメッシュを前提として,テキストプロンプトからテクスチャを生成する新しいアプローチを提案する。
当社のアプローチは、30メッシュを含むデータセット上で、メッシュ毎に約5分を要することを実証しています。
論文 参考訳(メタデータ) (2023-12-01T23:25:14Z) - Delicate Textured Mesh Recovery from NeRF via Adaptive Surface
Refinement [78.48648360358193]
画像からテクスチャ化された表面メッシュを生成する新しいフレームワークを提案する。
我々のアプローチは、NeRFを用いて幾何学とビュー依存の外観を効率的に初期化することから始まります。
ジオメトリと共同で外観を洗練し、テクスチャ画像に変換してリアルタイムレンダリングします。
論文 参考訳(メタデータ) (2023-03-03T17:14:44Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。
大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-10-08T17:58:20Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z) - MeshMVS: Multi-View Stereo Guided Mesh Reconstruction [35.763452474239955]
深層学習に基づく3次元形状生成法は、一般的に、カラー画像から抽出した潜時特徴を利用して、オブジェクトの意味を符号化する。
本稿では,多視点ステレオの中間深度表現の特徴を利用して,幾何情報を明確に取り入れたマルチビューメッシュ生成手法を提案する。
その結果,シェーファー距離が34%減少し,F1スコアが14%増加し,最先端のマルチビュー形状生成法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-10-17T00:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。