論文の概要: TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos
- arxiv url: http://arxiv.org/abs/2603.17735v1
- Date: Wed, 18 Mar 2026 14:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.73336
- Title: TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos
- Title(参考訳): TAPESTRY:一貫したターンテーブルビデオによる幾何学から外観へ
- Authors: Yan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu,
- Abstract要約: 明示的な3次元幾何学に基づく高忠実度TTVを生成するためのフレームワークであるTAPESTRYを紹介する。
また,3D-Aware Inpaintingを用いた多段パイプラインを特徴とする,TTV入力からの下流再構成タスクを設計する。
その結果,本手法はビデオの整合性と最終的な再現性の両方において,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 65.99602532894241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating photorealistic and self-consistent appearances for untextured 3D models is a critical challenge in digital content creation. The advancement of large-scale video generation models offers a natural approach: directly synthesizing 360-degree turntable videos (TTVs), which can serve not only as high-quality dynamic previews but also as an intermediate representation to drive texture synthesis and neural rendering. However, existing general-purpose video diffusion models struggle to maintain strict geometric consistency and appearance stability across the full range of views, making their outputs ill-suited for high-quality 3D reconstruction. To this end, we introduce TAPESTRY, a framework for generating high-fidelity TTVs conditioned on explicit 3D geometry. We reframe the 3D appearance generation task as a geometry-conditioned video diffusion problem: given a 3D mesh, we first render and encode multi-modal geometric features to constrain the video generation process with pixel-level precision, thereby enabling the creation of high-quality and consistent TTVs. Building upon this, we also design a method for downstream reconstruction tasks from the TTV input, featuring a multi-stage pipeline with 3D-Aware Inpainting. By rotating the model and performing a context-aware secondary generation, this pipeline effectively completes self-occluded regions to achieve full surface coverage. The videos generated by TAPESTRY are not only high-quality dynamic previews but also serve as a reliable, 3D-aware intermediate representation that can be seamlessly back-projected into UV textures or used to supervise neural rendering methods like 3DGS. This enables the automated creation of production-ready, complete 3D assets from untextured meshes. Experimental results demonstrate that our method outperforms existing approaches in both video consistency and final reconstruction quality.
- Abstract(参考訳): 非テクスチャ付き3Dモデルのための写真リアリスティックおよび自己一貫性の外観の自動生成は、デジタルコンテンツ作成において重要な課題である。
大規模なビデオ生成モデルの進歩は自然なアプローチを提供する。360度回転テーブルビデオ(TTV)を直接合成することで、高品質な動的プレビューだけでなく、テクスチャ合成とニューラルレンダリングを駆動する中間表現としても機能する。
しかし、既存の汎用ビデオ拡散モデルは、全視野にわたって厳密な幾何整合性と外観安定性を維持するのに苦慮しており、高品質な3D再構成には不適である。
この目的のために, 明示的な3次元幾何学に基づく高忠実度TTVを生成するためのフレームワークであるTAPESTRYを紹介する。
3Dメッシュが与えられたとき、まずマルチモーダルな幾何学的特徴をレンダリングしてエンコードし、画素レベルの精度で映像生成プロセスを制限し、高品質で一貫したTTVの作成を可能にする。
また,TTV入力から下流への再構成作業を行う手法を設計し,多段パイプラインと3D-Aware Inpaintingを特徴とする。
このパイプラインは、モデルを回転させ、コンテキスト対応の二次生成を行うことで、自己閉鎖領域を効果的に完了し、完全な表面被覆を実現する。
TAPESTRYが生成したビデオは高品質のダイナミックプレビューであるだけでなく、信頼性の高い3D対応の中間表現としても機能し、紫外線テクスチャにシームレスにバックプロジェクターしたり、3DGSのようなニューラルレンダリング手法を監督したりすることができる。
これにより、無テクスチャメッシュからプロダクション対応の完全な3Dアセットを自動生成することが可能になる。
実験結果から,本手法はビデオの整合性と最終的な再現性の両方において,既存の手法よりも優れていることが示された。
関連論文リスト
- Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。
提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-12T18:26:34Z) - GraphicsDreamer: Image to 3D Generation with Physical Consistency [32.26851174969898]
単一画像から高機能な3Dメッシュを作成する方法であるGraphicsDreamerを紹介する。
幾何融合の段階では、生成した3Dオブジェクトが信頼性の高いテクスチャの詳細を持つことを保証するため、PBRの制約を継続する。
提案手法はトポロジ最適化と高速なUVアンラッピング機能を備えており,3D画像をグラフィクスエンジンにシームレスにインポートすることができる。
論文 参考訳(メタデータ) (2024-12-18T10:01:27Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion [86.25111098482537]
3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
論文 参考訳(メタデータ) (2024-09-19T17:59:06Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。