論文の概要: VAR-3D: View-aware Auto-Regressive Model for Text-to-3D Generation via a 3D Tokenizer
- arxiv url: http://arxiv.org/abs/2602.13818v1
- Date: Sat, 14 Feb 2026 15:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.443246
- Title: VAR-3D: View-aware Auto-Regressive Model for Text-to-3D Generation via a 3D Tokenizer
- Title(参考訳): VAR-3D:3次元トケナイザを用いたテキスト・ツー・3次元生成のためのビューアウェア自動回帰モデル
- Authors: Zongcheng Han, Dongyan Cao, Haoran Sun, Yu Hong,
- Abstract要約: 本稿では、3次元モデルの複雑な幾何学構造を離散トークンに変換するために、3次元ベクトル量子化可変オートエンコーダ(VQ-VAE)を提案する。
実験により、VAR-3Dは、生成品質とテキスト3Dアライメントの両方において、既存の手法を著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 19.429606246646784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in auto-regressive transformers have achieved remarkable success in generative modeling. However, text-to-3D generation remains challenging, primarily due to bottlenecks in learning discrete 3D representations. Specifically, existing approaches often suffer from information loss during encoding, causing representational distortion before the quantization process. This effect is further amplified by vector quantization, ultimately degrading the geometric coherence of text-conditioned 3D shapes. Moreover, the conventional two-stage training paradigm induces an objective mismatch between reconstruction and text-conditioned auto-regressive generation. To address these issues, we propose View-aware Auto-Regressive 3D (VAR-3D), which intergrates a view-aware 3D Vector Quantized-Variational AutoEncoder (VQ-VAE) to convert the complex geometric structure of 3D models into discrete tokens. Additionally, we introduce a rendering-supervised training strategy that couples discrete token prediction with visual reconstruction, encouraging the generative process to better preserve visual fidelity and structural consistency relative to the input text. Experiments demonstrate that VAR-3D significantly outperforms existing methods in both generation quality and text-3D alignment.
- Abstract(参考訳): 近年の自己回帰変換器の進歩は、生成モデリングにおいて顕著な成功を収めている。
しかし、テキストから3Dへの生成は、主に離散的な3D表現の学習におけるボトルネックのため、依然として困難である。
具体的には、既存のアプローチは符号化中に情報損失に悩まされ、量子化プロセスの前に表現歪みを引き起こす。
この効果はベクトル量子化によってさらに増幅され、最終的にテキスト条件の3次元形状の幾何学的コヒーレンスを劣化させる。
さらに、従来の2段階学習パラダイムは、再構築とテキスト条件の自動回帰生成の客観的なミスマッチを誘導する。
これらの問題に対処するため,ビューアウェアな3Dベクトル量子分散オートエンコーダ(VQ-VAE)を介し,複雑な3Dモデルの幾何学構造を離散トークンに変換するビューアウェアな自動回帰3D(VAR-3D)を提案する。
さらに、離散トークン予測と視覚的再構成を組み合わせ、生成プロセスが入力テキストに対する視覚的忠実度と構造的整合性をよりよく維持するように促すレンダリング制御型トレーニング戦略を導入する。
実験により、VAR-3Dは、生成品質とテキスト3Dアライメントの両方において、既存の手法を著しく上回っていることが示された。
関連論文リスト
- IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - MAR-3D: Progressive Masked Auto-regressor for High-Resolution 3D Generation [44.94438766074643]
ピラミッド変分オートエンコーダとカスケードマスク自動回帰変換器を統合したMAR-3Dを提案する。
我々のアーキテクチャは、トレーニング中にランダムマスキングを採用し、推論中にランダムな順序で自動回帰化を行い、自然に3D潜在トークンの無秩序な性質を調節する。
論文 参考訳(メタデータ) (2025-03-26T13:00:51Z) - TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。