Fugu-MT 論文翻訳(概要): EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

論文の概要: EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

arxiv url: http://arxiv.org/abs/2605.16745v1
Date: Sat, 16 May 2026 01:55:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.000549
Title: EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers
Title（参考訳）: EVA01:Mixture-of-Transformersによる統一ネイティブ3D理解と生成
Authors: Zongyuan Yang, Mingjing Yi, Wanli Ma, Chenzhuo Fan, Bocheng Li, Baolin Liu, Yuke Lou, Yingde Song, Yongping Xiong, Zhengdong Guo, Shimu Wang,
Abstract要約: EVA01はマルチモーダル大言語モデルのモダリティ境界を拡張するフレームワークである。 3Dメッシュの理解、生成、コンテキスト対応編集が組み込まれている。その結果,EVA01は最先端のネイティブテキスト・ツー・3D生成忠実性を実現することがわかった。
参考スコア（独自算出の注目度）: 6.781951702759721
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper addresses the challenge of integrating 3D meshes as a native modality within Multimodal Large Language Models (MLLMs). Diffusion-based large reconstruction models decouple semantic understanding from geometric reasoning, operating as stateless reconstructors conditioned on dense 2D pixel priors. Recent MLLM-based methods treat the 3D modality as an external output rather than a native component of the multimodal sequence, making incremental adaptations without a systematic analysis of how geometric manifolds align with MLLM feature spaces. We introduce EVA01, a unified framework that extends the modality boundary of MLLMs to natively incorporate 3D mesh understanding, generation, and context-aware editing. Built upon a Mixture-of-Transformers (MoT) architecture, EVA01 decouples the model into a pre-trained Understanding Expert ($E_{\mathrm{und}}$) and a structurally mirrored Generation Expert ($E_{\mathrm{gen}}$), coupled through shared global self-attention with hard modality routing. This design aligns the semantic latent space of the MLLM backbone with the geometric manifold, enabling direct transfer of multimodal priors without intermediate 2D representations. Results show that EVA01 achieves state-of-the-art native text-to-3D generation fidelity and unlocks robust long-context multi-turn geometric editing with identity preservation, a capability fundamentally inaccessible to stateless reconstruction pipelines. Our findings further offer architectural insights for integrating 2D foundation models with 3D tasks, informing the design of 3D-native multimodal systems. Project Page: https://www.seeles.ai/research/pages/EVA01
Abstract（参考訳）: 本稿では,Multimodal Large Language Models (MLLM) において,3Dメッシュをネイティブなモダリティとして統合するという課題に対処する。拡散に基づく大規模再構成モデルは、幾何学的推論から意味的理解を分離し、密度の高い2Dピクセルの事前条件付きステートレスコンストラクタとして機能する。最近のMLLM法では、3次元のモジュラリティをマルチモーダル列の固有成分ではなく外部出力として扱い、幾何多様体がMLLM特徴空間とどのように一致しているかを体系的に解析することなく漸進的な適応を行う。 EVA01はMLLMのモダリティ境界を拡張し、3Dメッシュ理解、生成、コンテキスト認識編集をネイティブに組み込む統合フレームワークである。 Mixture-of-Transformers (MoT)アーキテクチャに基づいて構築されたEVA01は、モデルを事前訓練された理解エキスパート(E_{\mathrm{und}}$)と構造的にミラー化された生成エキスパート(E_{\mathrm{gen}}$)に分離し、共有グローバルな自己意図とハードモードのルーティングを結合する。この設計はMLLMバックボーンのセマンティック潜時空間を幾何学多様体と整列し、中間2次元表現なしでマルチモーダル先行の直接移動を可能にする。その結果,EVA01は最先端のネイティブテキスト・ツー・3D生成の忠実性を達成し,堅牢な長文マルチターン幾何編集とID保存の両立を実現している。さらに,2次元基礎モデルと3次元タスクの統合を図り,3次元ネイティブなマルチモーダルシステムの設計について述べる。プロジェクトページ: https://www.seeles.ai/research/pages/EVA01

関連論文リスト

SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness [62.38746300197673]
本稿では、3次元幾何学的認識を統合画像生成モデルに内包する新しいフレームワークを提案する。具体的には、まずMixture-of-Transformers (MoT)アーキテクチャを用いて、MLLMを並列空間変換器で拡張する。自己注意をMLLMと共有することにより、空間変換器は、リッチなセマンティックコンテキストからターゲット画像の計量深度マップを導出することを学ぶ。これらの明示的な幾何学的足場は、特殊深度アダプターを介して拡散バックボーンに注入される。
論文参考訳（メタデータ） (2026-04-29T06:46:59Z)
Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning [10.542346290671114]
明示的な3次元再構成を基礎としたビジュアル・チェーン・オブ・ソート・メカニズムを導入したテクスティングフリーなフレームワークを提案する。このフレームワークは、3DSRBenchやRel3Dといった主要なベンチマークにおいて、特別な空間モデルや汎用MLLMよりも優れている。
論文参考訳（メタデータ） (2026-04-08T06:47:55Z)
Let Geometry GUIDE: Layer-wise Unrolling of Geometric Priors in Multimodal LLMs [13.627465963609936]
GUIDE(Geometric Unrolling Inside MLLM Early-layers)は、プログレッシブな幾何学的事前注入フレームワークである。本研究では,現在の意味論に基づいて必要な空間的手がかりを抽出できる文脈認識ゲーティングを提案する。
論文参考訳（メタデータ） (2026-04-07T10:45:28Z)
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。 GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文参考訳（メタデータ） (2026-03-19T17:59:58Z)
GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文参考訳（メタデータ） (2026-03-17T12:43:48Z)
Interact3D: Compositional 3D Generation of Interactive Objects [31.12099147294145]
本稿では,3次元合成オブジェクト間の相互作用を物理的に妥当に生成する新しいフレームワークを提案する。当社のアプローチは、まず先進的な先進的な先進的手法を活用して、高品質な個人資産をキュレートする。これらの資産を物理的に構成するために、ロバストな2段階合成パイプラインを導入する。
論文参考訳（メタデータ） (2026-03-17T03:21:06Z)
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文参考訳（メタデータ） (2025-10-26T14:57:44Z)
Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文参考訳（メタデータ） (2025-09-29T07:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。