論文の概要: Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians
- arxiv url: http://arxiv.org/abs/2508.01464v1
- Date: Sat, 02 Aug 2025 18:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.890257
- Title: Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians
- Title(参考訳): Can3Tok:Scene-Level 3D Gaussianの標準的な3Dトークン化と潜在モデリング
- Authors: Quankai Gao, Iliyan Georgiev, Tuanfeng Y. Wang, Krishna Kumar Singh, Ulrich Neumann, Jae Shin Yoon,
- Abstract要約: Can3Tokは、多数のガウスプリミティブを低次元の潜伏埋め込みに符号化できる最初の3次元シーンレベルの変分オートエンコーダである。
本稿では,大規模不整合問題に対処する3次元シーンデータ処理のための汎用パイプラインを提案する。
- 参考スコア(独自算出の注目度): 27.19772539224761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D generation has made significant progress, however, it still largely remains at the object-level. Feedforward 3D scene-level generation has been rarely explored due to the lack of models capable of scaling-up latent representation learning on 3D scene-level data. Unlike object-level generative models, which are trained on well-labeled 3D data in a bounded canonical space, scene-level generations with 3D scenes represented by 3D Gaussian Splatting (3DGS) are unbounded and exhibit scale inconsistency across different scenes, making unified latent representation learning for generative purposes extremely challenging. In this paper, we introduce Can3Tok, the first 3D scene-level variational autoencoder (VAE) capable of encoding a large number of Gaussian primitives into a low-dimensional latent embedding, which effectively captures both semantic and spatial information of the inputs. Beyond model design, we propose a general pipeline for 3D scene data processing to address scale inconsistency issue. We validate our method on the recent scene-level 3D dataset DL3DV-10K, where we found that only Can3Tok successfully generalizes to novel 3D scenes, while compared methods fail to converge on even a few hundred scene inputs during training and exhibit zero generalization ability during inference. Finally, we demonstrate image-to-3DGS and text-to-3DGS generation as our applications to demonstrate its ability to facilitate downstream generation tasks.
- Abstract(参考訳): 3D生成は大きな進歩を遂げましたが、それでもオブジェクトレベルに留まっています。
フィードフォワード3次元シーンレベルの生成は、3次元シーンレベルのデータに対して遅延表現学習をスケールアップできるモデルがないために、めったに研究されていない。
有界標準空間におけるよくラベル付けられた3Dデータに基づいて訓練されたオブジェクトレベルの生成モデルとは異なり、3Dガウススティング(3DGS)で表される3Dシーンを持つシーンレベルの世代は非有界であり、異なるシーンにわたるスケールの不整合を示すため、生成目的のための統一潜在表現学習は非常に困難である。
本稿では,多数のガウスプリミティブを低次元ラテント埋め込みに符号化し,入力のセマンティック情報と空間情報の両方を効果的にキャプチャする,最初の3次元シーンレベルの可変オートエンコーダ(VAE)であるCan3Tokを紹介する。
モデル設計以外にも,大規模不整合問題に対処する3次元シーンデータ処理のための汎用パイプラインを提案する。
そこでは,Can3Tokだけが新しい3Dシーンに一般化できるのに対して,比較手法はトレーニング中に数百のシーンインプットに収束せず,推論中に一般化能力がゼロであることが判明した。
最後に,画像から3DGS,テキストへの3DGS生成を応用して,下流生成タスクの高速化を実証する。
関連論文リスト
- SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining [100.23919762298227]
現在、既存のすべてのメソッドは、トレーニング中や推論時に2Dまたはテキストのモダリティに依存している。
我々はSceneSplatを紹介し,3DGSで動作する最初の大規模屋内シーン理解手法について紹介する。
ラベルのないシーンからリッチな3D特徴学習を解放する自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-23T12:50:25Z) - Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors [11.156009461711639]
GGS(Generative Gaussian Splatting)は、3D表現と事前学習された遅延ビデオ拡散モデルを統合する新しい手法である。
本研究では,シーン合成のための2つの共通ベンチマークデータセットであるRealEstate10KとScanNet+について検討した。
論文 参考訳(メタデータ) (2025-03-17T15:24:04Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。