論文の概要: WorldAgents: Can Foundation Image Models be Agents for 3D World Models?
- arxiv url: http://arxiv.org/abs/2603.19708v1
- Date: Fri, 20 Mar 2026 07:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.037954
- Title: WorldAgents: Can Foundation Image Models be Agents for 3D World Models?
- Title(参考訳): WorldAgents:Foundation Image Modelsは3D World Modelsのエージェントになれるか?
- Authors: Ziya Erkoç, Angela Dai, Matthias Nießner,
- Abstract要約: 2次元モデルが実際に3次元世界の把握をカプセル化していることを実証する。
この理解を生かして,本手法は拡張性,現実性,および3D一貫性のある世界をうまく合成する。
- 参考スコア(独自算出の注目度): 82.83725150353915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the remarkable ability of 2D foundation image models to generate high-fidelity outputs, we investigate a fundamental question: do 2D foundation image models inherently possess 3D world model capabilities? To answer this, we systematically evaluate multiple state-of-the-art image generation models and Vision-Language Models (VLMs) on the task of 3D world synthesis. To harness and benchmark their potential implicit 3D capability, we propose an agentic framing to facilitate 3D world generation. Our approach employs a multi-agent architecture: a VLM-based director that formulates prompts to guide image synthesis, a generator that synthesizes new image views, and a VLM-backed two-step verifier that evaluates and selectively curates generated frames from both 2D image and 3D reconstruction space. Crucially, we demonstrate that our agentic approach provides coherent and robust 3D reconstruction, producing output scenes that can be explored by rendering novel views. Through extensive experiments across various foundation models, we demonstrate that 2D models do indeed encapsulate a grasp of 3D worlds. By exploiting this understanding, our method successfully synthesizes expansive, realistic, and 3D-consistent worlds.
- Abstract(参考訳): 高忠実度出力を生成するための2次元基礎画像モデルの顕著な能力を考えると、2D基礎画像モデルは本質的に3次元世界モデル能力を持っているか?
そこで我々は,3次元世界合成の課題に対して,複数の最先端画像生成モデルと視覚言語モデル(VLM)を体系的に評価した。
暗黙的な3D能力を生かし,評価するために,エージェントフレーミングにより3Dワールドジェネレーションを促進する手法を提案する。
提案手法では,新たな画像ビューを合成するジェネレータと,2次元画像と3次元再構成空間の両方から生成されたフレームを評価・選択的にキュレートする2段階検証器を用いて,画像合成の導出を促す。
重要なことは、我々のエージェント的アプローチは、一貫性と堅牢な3次元再構成を提供し、新規なビューをレンダリングすることによって探索可能な出力シーンを生成することを実証する。
様々な基礎モデルの広範な実験を通して、2次元モデルが実際に3次元世界の把握をカプセル化していることを示す。
この理解を生かして,本手法は拡張性,現実性,および3D一貫性のある世界をうまく合成する。
関連論文リスト
- SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction [33.91087232439536]
光リアリスティックな3Dフルボディの人間の再構築は、映画やビデオゲームの応用には不可欠である。
最近のアプローチでは、SMPL推定とSMPL条件画像生成モデルを利用して、新しい視点を幻覚させる。
2次元多視点生成モデルと3次元ネイティブ生成モデルを組み合わせた新しいフレームワークSyncHumanを提案する。
論文 参考訳(メタデータ) (2025-10-09T03:01:10Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - 3DHumanGAN: 3D-Aware Human Image Generation with 3D Pose Mapping [37.14866512377012]
3DHumanGAN(3DHumanGAN)は、全身の人間の写実的な画像を合成する3D対応の対向ネットワークである。
本稿では,3次元ポーズマッピングネットワークによって2次元畳み込みバックボーンを変調する新しいジェネレータアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-14T17:59:03Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。