論文の概要: Cube: A Roblox View of 3D Intelligence
- arxiv url: http://arxiv.org/abs/2503.15475v1
- Date: Wed, 19 Mar 2025 17:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:07.236408
- Title: Cube: A Roblox View of 3D Intelligence
- Title(参考訳): キューブの3Dインテリジェンス
- Authors: Foundation AI Team, Kiran Bhat, Nishchaie Khanna, Karun Channa, Tinghui Zhou, Yiheng Zhu, Xiaoxia Sun, Charles Shang, Anirudh Sudarshan, Maurice Chu, Daiqing Li, Kangle Deng, Jean-Philippe Fauconnier, Tijmen Verhulsdonck, Maneesh Agrawala, Kayvon Fatahalian, Alexander Weiss, Christian Reiser, Ravi Kiran Chirravuri, Ravali Kandur, Alejandro Pelaez, Akash Garg, Michael Palleschi, Jessica Wang, Skylar Litz, Leon Liu, Anying Li, David Harmon, Derek Liu, Liangjun Feng, Denis Goupil, Lukas Kuczynski, Jihyun Yoon, Naveen Marri, Peiye Zhuang, Yinan Zhang, Brian Yin, Haomiao Jiang, Marcel van Workum, Thomas Lane, Bryce Erickson, Salil Pathare, Kyle Price, Anupam Singh, David Baszucki,
- Abstract要約: 膨大な量のデータに基づいてトレーニングされた基礎モデルは、驚くべき推論と生成能力を示している。
本稿では,テキスト・ツー・シェイプ生成,形状・ツー・テキスト生成,テキスト・ツー・シーン生成などに適用可能なトークン化方式について述べる。
我々は、3Dインテリジェンスのための完全に統一された基礎モデルを構築するための私たちの道筋を概説した議論で締めくくります。
- 参考スコア(独自算出の注目度): 67.43470288767679
- License:
- Abstract: Foundation models trained on vast amounts of data have demonstrated remarkable reasoning and generation capabilities in the domains of text, images, audio and video. Our goal at Roblox is to build such a foundation model for 3D intelligence, a model that can support developers in producing all aspects of a Roblox experience, from generating 3D objects and scenes to rigging characters for animation to producing programmatic scripts describing object behaviors. We discuss three key design requirements for such a 3D foundation model and then present our first step towards building such a model. We expect that 3D geometric shapes will be a core data type and describe our solution for 3D shape tokenizer. We show how our tokenization scheme can be used in applications for text-to-shape generation, shape-to-text generation and text-to-scene generation. We demonstrate how these applications can collaborate with existing large language models (LLMs) to perform scene analysis and reasoning. We conclude with a discussion outlining our path to building a fully unified foundation model for 3D intelligence.
- Abstract(参考訳): 大量のデータに基づいてトレーニングされた基礎モデルは、テキスト、画像、オーディオ、ビデオの領域で顕著な推論と生成能力を示している。
Robloxの目標は、3Dオブジェクトやシーンの生成からアニメーションの文字のリグ、オブジェクトの振る舞いを記述するプログラムスクリプトの作成に至るまで、開発者がRobloxエクスペリエンスのあらゆる側面を作成できるモデルである3Dインテリジェンスの基礎モデルを構築することです。
このような3Dファウンデーションモデルの3つの重要な設計要件について議論し、その上で、そのようなモデルを構築するための第一歩を提示する。
我々は3次元形状がコアデータ型になることを期待し、3次元形状トークン化器のソリューションについて述べる。
本稿では,テキスト・ツー・シェイプ生成,形状・ツー・テキスト生成,テキスト・ツー・シーン生成などに適用可能なトークン化方式について述べる。
これらのアプリケーションが既存の大規模言語モデル(LLM)と協調してシーン分析や推論を行う方法を示す。
我々は、3Dインテリジェンスのための完全に統一された基礎モデルを構築するための私たちの道筋を概説した議論で締めくくります。
関連論文リスト
- Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - Building 3D Generative Models from Minimal Data [3.472931603805115]
一つの3Dテンプレート(1人1人ではなく1人1人)で顔の認識が可能であることを示す。
我々は,1つの3次元テンプレートと少数の2次元画像を用いて,3次元顔の分布の学習を可能にする,予備的な教師なし学習フレームワークにモデルを拡張した。
論文 参考訳(メタデータ) (2022-03-04T20:10:50Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Building 3D Morphable Models from a Single Scan [3.472931603805115]
本研究では,単一の3次元メッシュから3次元オブジェクトの生成モデルを構築する手法を提案する。
本手法はガウス過程で形状とアルベドを表す3次元形状モデルを生成する。
提案手法は, 単一の3次元スキャンのみを用いて顔認識を行うことができることを示す。
論文 参考訳(メタデータ) (2020-11-24T23:08:14Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。