論文の概要: Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images
- arxiv url: http://arxiv.org/abs/2511.07222v1
- Date: Mon, 10 Nov 2025 15:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.337411
- Title: Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images
- Title(参考訳): Omni-View:マルチビュー画像に基づく統一3次元モデルにおける生成支援方法の解き方
- Authors: JiaKui Hu, Shanshan Zhao, Qing-Guo Chen, Xuerui Qiu, Jialun Liu, Zhao Xu, Weihua Luo, Kaifu Zhang, Yanye Lu,
- Abstract要約: OmniViewは、マルチビュー画像に基づく3Dシーンの統一的な理解と生成を拡張している。
シーン理解、新しいビュー合成、幾何学的推定を共同でモデル化し、3Dシーン理解と生成タスク間の相乗的相互作用を可能にする。
- 参考スコア(独自算出の注目度): 40.459573512775556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Omni-View, which extends the unified multimodal understanding and generation to 3D scenes based on multiview images, exploring the principle that "generation facilitates understanding". Consisting of understanding model, texture module, and geometry module, Omni-View jointly models scene understanding, novel view synthesis, and geometry estimation, enabling synergistic interaction between 3D scene understanding and generation tasks. By design, it leverages the spatiotemporal modeling capabilities of its texture module responsible for appearance synthesis, alongside the explicit geometric constraints provided by its dedicated geometry module, thereby enriching the model's holistic understanding of 3D scenes. Trained with a two-stage strategy, Omni-View achieves a state-of-the-art score of 55.4 on the VSI-Bench benchmark, outperforming existing specialized 3D understanding models, while simultaneously delivering strong performance in both novel view synthesis and 3D scene generation.
- Abstract(参考訳): 本稿では,マルチビュー画像に基づいて,統一されたマルチモーダル理解と生成を3Dシーンに拡張したOmni-Viewを提案する。
理解モデル、テクスチャモジュール、幾何学モジュールから構成されるOmni-Viewは、シーン理解、新しいビュー合成、幾何学推定を共同でモデル化し、三次元シーン理解と生成タスク間の相乗的相互作用を可能にする。
デザインでは、テクスチャモジュールの時空間モデリング機能を利用して外観合成を行い、専用の幾何学モジュールが提供する明示的な幾何学的制約を伴って、3Dシーンの全体的理解を深める。
2段階の戦略で訓練されたOmni-Viewは、VSI-Benchベンチマークで55.4の最先端スコアを達成し、既存の専門的な3D理解モデルよりも優れ、同時に新しいビュー合成と3Dシーン生成の両方で強力なパフォーマンスを提供する。
関連論文リスト
- PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing [51.56943889042673]
PercHeadは、シングルイメージの3Dヘッド再構成とセマンティック3D編集のための方法である。
単一の入力画像からビュー一貫性を持つ3Dヘッドを再構成するための統一ベースモデルを開発する。
軽量でインタラクティブなGUIを通して、直感的で強力な3D編集機能を強調します。
論文 参考訳(メタデータ) (2025-11-04T17:59:15Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文 参考訳(メタデータ) (2025-06-25T16:40:17Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。