論文の概要: FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation
- arxiv url: http://arxiv.org/abs/2603.01515v2
- Date: Tue, 03 Mar 2026 10:12:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.618742
- Title: FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation
- Title(参考訳): FACE: 高忠実かつ効率的なメッシュ生成のための顔に基づく自己回帰表現
- Authors: Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu, Zi-Xin Zou, Biao Zhang, Weize Quan, Ding Liang, Yan-Pei Cao, Dong-Ming Yan,
- Abstract要約: フェースレベルでメッシュを生成する新しいAutoregressive AutoencoderフレームワークであるFACEを紹介する。
当社のワンフェイスワンツーケン戦略は、メッシュの基本構築ブロックである三角形の面を、単一の統一トークンとして扱います。
FACEは、標準ベンチマークで最先端の再構築品質を達成する。
- 参考スコア(独自算出の注目度): 50.71369329585773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models for 3D mesh generation suffer from a fundamental limitation: they flatten meshes into long vertex-coordinate sequences. This results in prohibitive computational costs, hindering the efficient synthesis of high-fidelity geometry. We argue this bottleneck stems from operating at the wrong semantic level. We introduce FACE, a novel Autoregressive Autoencoder (ARAE) framework that reconceptualizes the task by generating meshes at the face level. Our one-face-one-token strategy treats each triangle face, the fundamental building block of a mesh, as a single, unified token. This simple yet powerful design reduces the sequence length by a factor of nine, leading to an unprecedented compression ratio of 0.11, halving the previous state-of-the-art. This dramatic efficiency gain does not compromise quality; by pairing our face-level decoder with a powerful VecSet encoder, FACE achieves state-of-the-art reconstruction quality on standard benchmarks. The versatility of the learned latent space is further demonstrated by training a latent diffusion model that achieves high-fidelity, single-image-to-mesh generation. FACE provides a simple, scalable, and powerful paradigm that lowers the barrier to high-quality structured 3D content creation.
- Abstract(参考訳): 3Dメッシュ生成のための自己回帰モデルは、メッシュを長い頂点座標列にフラット化するという、基本的な制限に悩まされる。
これにより計算コストが禁じられ、高忠実度幾何学の効率的な合成が妨げられる。
このボトルネックは,誤ったセマンティックレベルでの運用に起因する,と我々は主張する。
本稿では,顔レベルでメッシュを生成することでタスクを再現する新しい自動回帰オートエンコーダ(ARAE)フレームワークであるFACEを紹介する。
当社のワンフェイスワンツーケン戦略は、メッシュの基本構築ブロックである三角形の面を、単一の統一トークンとして扱います。
この単純で強力な設計は、シーケンスの長さを9倍に減らし、前例のない圧縮比0.11となり、それまでの最先端を半減させた。
顔レベルのデコーダを強力なVecSetエンコーダと組み合わせることで、FACEは標準ベンチマーク上で最先端の再構築品質を達成する。
学習された潜伏空間の汎用性は、高忠実で単一画像からメッシュ生成を実現する潜伏拡散モデルを訓練することによってさらに実証される。
FACEはシンプルでスケーラブルで強力なパラダイムを提供し、高品質な構造化された3Dコンテンツ作成の障壁を低くする。
関連論文リスト
- HiFi-Mesh: High-Fidelity Efficient 3D Mesh Generation via Compact Autoregressive Dependence [36.403921772528236]
本稿では、生成プロセスにコンパクトな自己回帰依存を組み込んだLatent Autoregressive Network(LANE)を紹介する。
LANEは、既存の方法に比べて最大シーケンス長が6倍に改善されている。
論文 参考訳(メタデータ) (2026-01-29T06:22:26Z) - LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - FlashMesh: Faster and Better Autoregressive Mesh Synthesis via Structured Speculation [65.3277633028397]
FlashMeshは高速かつ高忠実なメッシュ生成フレームワークである。
我々は、FlashMeshが標準の自己回帰モデルよりも最大2倍のスピードアップを達成することを示す。
論文 参考訳(メタデータ) (2025-11-19T17:03:49Z) - Topology Sculptor, Shape Refiner: Discrete Diffusion Model for High-Fidelity 3D Meshes Generation [14.55646181682844]
Topology Sculptor, Shape Refiner (TSSR)は、高品質なアーティストスタイルの3Dメッシュを生成する新しい方法である。
この並列生成能力は,3つの重要なイノベーションを通じて活用しています。
複雑なデータセットの実験は、TSSRが高品質な3Dアーティストスタイルのメッシュを生成することを示した。
論文 参考訳(メタデータ) (2025-10-24T08:51:48Z) - FastMesh: Efficient Artistic Mesh Generation via Component Decoupling [27.21354509059262]
メッシュ生成アプローチは通常、三角形メッシュをトークンのシーケンスにトークン化し、これらのトークンをシーケンシャルに生成するように自動回帰モデルを訓練する。
この冗長性は、過度に長いトークンシーケンスと非効率な生成プロセスをもたらす。
本稿では,頂点と面を別々に扱うことにより,芸術的メッシュを生成する効率的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-08-26T16:51:02Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - MeshCraft: Exploring Efficient and Controllable Mesh Generation with Flow-based DiTs [79.45006864728893]
MeshCraftは、効率的かつ制御可能なメッシュ生成のためのフレームワークである。
連続的な空間拡散を用いて、離散的な三角形の面を生成する。
800面のメッシュを3.2秒で生成できる。
論文 参考訳(メタデータ) (2025-03-29T09:21:50Z) - TreeMeshGPT: Artistic Mesh Generation with Autoregressive Tree Sequencing [47.919057306538626]
TreeMeshGPTは、入力ポイントクラウドに整列した芸術的メッシュを生成するように設計された自動回帰変換器である。
提案手法は,2つのトークンを持つ三角形の面をそれぞれ表現し,圧縮率を約22%とする。
提案手法は,従来手法でよく見られたフリップ正規化を最小化しながら,強い正規配向制約を持つメッシュを生成する。
論文 参考訳(メタデータ) (2025-03-14T17:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。