論文の概要: Repurposing 3D Generative Model for Autoregressive Layout Generation
- arxiv url: http://arxiv.org/abs/2604.16299v1
- Date: Fri, 17 Apr 2026 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.044065
- Title: Repurposing 3D Generative Model for Autoregressive Layout Generation
- Title(参考訳): 自己回帰レイアウト生成のための3次元生成モデルの再検討
- Authors: Haoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, Yuxin Peng, Lu Sheng,
- Abstract要約: 3次元レイアウト生成のための3次元生成モデルを再利用するフレームワークであるLaviGenを紹介する。
LayoutVLMベンチマークの実験では、LaviGenは最先端の3Dレイアウト生成性能を実現し、技術水準よりも19%高い物理確率と65%の高速計算を実現している。
- 参考スコア(独自算出の注目度): 58.216727793212414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LaviGen, a framework that repurposes 3D generative models for 3D layout generation. Unlike previous methods that infer object layouts from textual descriptions, LaviGen operates directly in the native 3D space, formulating layout generation as an autoregressive process that explicitly models geometric relations and physical constraints among objects, producing coherent and physically plausible 3D scenes. To further enhance this process, we propose an adapted 3D diffusion model that integrates scene, object, and instruction information and employs a dual-guidance self-rollout distillation mechanism to improve efficiency and spatial accuracy. Extensive experiments on the LayoutVLM benchmark show LaviGen achieves superior 3D layout generation performance, with 19% higher physical plausibility than the state of the art and 65% faster computation. Our code is publicly available at https://github.com/fenghora/LaviGen.
- Abstract(参考訳): 3次元レイアウト生成のための3次元生成モデルを再利用するフレームワークであるLaviGenを紹介する。
テキスト記述からオブジェクトレイアウトを推測する従来の方法とは異なり、LaviGenはネイティブな3D空間で直接動作し、オブジェクト間の幾何学的関係と物理的制約を明示的にモデル化した自動回帰プロセスとしてレイアウト生成を定式化する。
このプロセスをさらに強化するために,シーン,オブジェクト,命令情報を統合した適応型3次元拡散モデルを提案する。
LayoutVLMベンチマークの大規模な実験では、LaviGenは最先端の3Dレイアウト生成性能が19%向上し、計算速度が65%向上した。
私たちのコードはhttps://github.com/fenghora/LaviGen.comで公開されています。
関連論文リスト
- Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation [51.36926306499593]
Prometheusはオブジェクトレベルとシーンレベルの両方を秒単位でテキストから3D生成するための3D対応潜時拡散モデルである。
遅延拡散パラダイムにおいて、3Dシーン生成を多視点, フィードフォワード, ピクセルアラインな3Dガウス生成として定式化する。
論文 参考訳(メタデータ) (2024-12-30T17:44:23Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - LucidDreaming: Controllable Object-Centric 3D Generation [10.646855651524387]
本稿では,テキストプロンプトコマンドや3Dバウンディングボックスのみから3次元生成を空間的,数値的に制御できるパイプラインを提案する。
LucidDreamingは、現在のアプローチと比較して、オブジェクトの配置精度と生成精度において優れた結果を得る。
論文 参考訳(メタデータ) (2023-11-30T18:55:23Z) - DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation [55.661467968178066]
本稿では,DreamGaussianを提案する。DreamGaussianは,効率と品質を両立させる新しい3Dコンテンツ生成フレームワークである。
我々の重要な洞察は、UV空間におけるメッシュ抽出とテクスチャ改善を伴う3次元ガウススプラッティングモデルを設計することである。
ニューラル・ラジアンス・フィールドにおける占有プルーニングとは対照的に、3次元ガウスの進行的な密度化は3次元生成タスクにおいて著しく速く収束することを示した。
論文 参考訳(メタデータ) (2023-09-28T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。