論文の概要: VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
- arxiv url: http://arxiv.org/abs/2510.13454v1
- Date: Wed, 15 Oct 2025 11:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.656323
- Title: VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
- Title(参考訳): VIST3A:多視点再構成ネットワークをビデオジェネレータに固定したテキスト・ツー・3D
- Authors: Hyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler,
- Abstract要約: テキスト・ビデオ・ジェネレータは「デコーダ」として3次元再構成システムと組み合わせることができる
私たちは、VIST3Aという、まさにそれを行う一般的なフレームワークを紹介します。
ビデオジェネレータと3次元再構成モデルを用いたVIST3A手法の評価を行った。
- 参考スコア(独自算出の注目度): 69.72818094722186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of large, pretrained models for both visual content generation and 3D reconstruction opens up new possibilities for text-to-3D generation. Intuitively, one could obtain a formidable 3D scene generator if one were able to combine the power of a modern latent text-to-video model as "generator" with the geometric abilities of a recent (feedforward) 3D reconstruction system as "decoder". We introduce VIST3A, a general framework that does just that, addressing two main challenges. First, the two components must be joined in a way that preserves the rich knowledge encoded in their weights. We revisit model stitching, i.e., we identify the layer in the 3D decoder that best matches the latent representation produced by the text-to-video generator and stitch the two parts together. That operation requires only a small dataset and no labels. Second, the text-to-video generator must be aligned with the stitched 3D decoder, to ensure that the generated latents are decodable into consistent, perceptually convincing 3D scene geometry. To that end, we adapt direct reward finetuning, a popular technique for human preference alignment. We evaluate the proposed VIST3A approach with different video generators and 3D reconstruction models. All tested pairings markedly improve over prior text-to-3D models that output Gaussian splats. Moreover, by choosing a suitable 3D base model, VIST3A also enables high-quality text-to-pointmap generation.
- Abstract(参考訳): 視覚コンテンツ生成と3D再構成の両方のための、大規模で事前訓練されたモデルの急速な進歩は、テキストから3D生成の新しい可能性を開く。
直感的には、現代の潜入型テキスト・ビデオモデルのパワーを「ジェネレータ」として、最近の(フィードフォワード)3D再構成システムの幾何学的能力と組み合わせて「デコーダ」として利用すれば、強烈な3Dシーン生成が得られます。
VIST3Aは2つの大きな課題に対処する一般的なフレームワークです。
まず、2つのコンポーネントは、重みに符号化された豊富な知識を保存する方法で結合されなければならない。
我々は,テキスト・ツー・ビデオ・ジェネレータが生成する遅延表現に最もよく適合する3次元デコーダの層を同定し,この2つの部分を縫合する。
この操作は小さなデータセットだけで、ラベルは必要ありません。
第二に、テキスト・トゥ・ビデオ・ジェネレータは縫合された3Dデコーダと整列しなければならない。
そこで我々は,人間の嗜好調整に人気の手法である直接報酬微調整を適用した。
ビデオジェネレータと3次元再構成モデルを用いたVIST3A手法の評価を行った。
テストされた全てのペアリングは、ガウススプレートを出力する以前のテキストから3Dモデルよりも著しく改善された。
さらに、適切な3Dベースモデルを選択することで、VIST3Aは高品質なテキスト・ツー・ポイントマップ生成を可能にする。
関連論文リスト
- TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z) - OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation [0.0]
編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。
編集可能な3Dモデルを生成し,対象とする連続時間無制限の3Dビデオを生成するために,単一の画像を使用する方法と理論であるOneTo3Dを提案する。
論文 参考訳(メタデータ) (2024-05-10T15:44:11Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。