論文の概要: 3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds
- arxiv url: http://arxiv.org/abs/2507.06484v1
- Date: Wed, 09 Jul 2025 02:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.436275
- Title: 3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds
- Title(参考訳): 3Dジェネラリスト:3Dワールド構築のための自己改善型ビジョンランゲージ・アクションモデル
- Authors: Fan-Yun Sun, Shengguang Wu, Christian Jacobsen, Thomas Yim, Haoming Zou, Alex Zook, Shangru Li, Yu-Hsin Chou, Ethem Can, Xunlei Wu, Clemens Eppner, Valts Blukis, Jonathan Tremblay, Jiajun Wu, Stan Birchfield, Nick Haber,
- Abstract要約: 基礎モデルのトレーニングデータとして利用できる高品質な3D環境を生成するためのスケーラブルな手法を提案する。
提案するフレームワークである3D-Generalistは、ビジョンランゲージモデルを用いて、より迅速な3D環境を生成する。
生成したデータに対して視覚基盤モデルを事前学習することにより,合成データ生成における品質とスケーラビリティを実証する。
- 参考スコア(独自算出の注目度): 23.329458437342684
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite large-scale pretraining endowing models with language and vision reasoning capabilities, improving their spatial reasoning capability remains challenging due to the lack of data grounded in the 3D world. While it is possible for humans to manually create immersive and interactive worlds through 3D graphics, as seen in applications such as VR, gaming, and robotics, this process remains highly labor-intensive. In this paper, we propose a scalable method for generating high-quality 3D environments that can serve as training data for foundation models. We recast 3D environment building as a sequential decision-making problem, employing Vision-Language-Models (VLMs) as policies that output actions to jointly craft a 3D environment's layout, materials, lighting, and assets. Our proposed framework, 3D-Generalist, trains VLMs to generate more prompt-aligned 3D environments via self-improvement fine-tuning. We demonstrate the effectiveness of 3D-Generalist and the proposed training strategy in generating simulation-ready 3D environments. Furthermore, we demonstrate its quality and scalability in synthetic data generation by pretraining a vision foundation model on the generated data. After fine-tuning the pre-trained model on downstream tasks, we show that it surpasses models pre-trained on meticulously human-crafted synthetic data and approaches results achieved with real data orders of magnitude larger.
- Abstract(参考訳): 言語と視覚推論能力を備えた大規模事前学習モデルにもかかわらず、空間推論能力の向上は3D世界に根ざしたデータ不足のため、依然として困難である。
人間がVR、ゲーム、ロボティクスなどのアプリケーションで見られるように、3Dグラフィックスを使って手動で没入的でインタラクティブな世界を作ることは可能だが、このプロセスは非常に労働集約的だ。
本稿では,基礎モデルのトレーニングデータとして機能する高品質な3D環境を生成するためのスケーラブルな手法を提案する。
我々は,3D環境のレイアウト,材料,照明,資産を共同で構築するためのアクションを出力するポリシーとして,ビジョン・ランゲージ・モデル(VLM)を用いて,連続的な意思決定問題として3D環境構築を再考した。
提案するフレームワークである3D-Generalistは、自己改善ファインチューニングにより、より迅速な3D環境を生成するためにVLMを訓練する。
本稿では,シミュレーション可能な3D環境構築における3Dジェネリストの有効性とトレーニング戦略を提案する。
さらに、生成したデータに視覚基盤モデルを適用することで、合成データ生成における品質とスケーラビリティを実証する。
下流タスクで事前学習したモデルを微調整した後、人間の手作り合成データに基づいて事前学習したモデルを超越し、実際のデータ順序を桁違いに大きくした。
関連論文リスト
- Automating 3D Dataset Generation with Neural Radiance Fields [0.0]
パフォーマンス検出モデルのトレーニングには、多様な、正確に注釈付けされた、大規模なデータセットが必要である。
任意のオブジェクトに対する3Dデータセットの自動生成のためのパイプラインを提案する。
私たちのパイプラインは速く、使いやすく、高度な自動化があります。
論文 参考訳(メタデータ) (2025-03-20T10:01:32Z) - Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。