論文の概要: Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images
- arxiv url: http://arxiv.org/abs/2508.03643v2
- Date: Wed, 06 Aug 2025 14:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.414627
- Title: Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images
- Title(参考訳): Uni3R:Unposed Multi-View画像からの一般化可能なガウススプレイティングによる統一3次元再構成と意味理解
- Authors: Xiangyu Sun, Haoyi jiang, Liu Liu, Seungtae Nam, Gyeongjin Kang, Xinjie wang, Wei Sui, Zhizhong Su, Wenyu Liu, Xinggang Wang, Eunbyung Park,
- Abstract要約: スパース2Dビューから3Dシーンを再構築し、意味的に解釈することは、コンピュータビジョンの根本的な課題である。
本稿では,オープンな語彙意味論に富んだ統一された3次元シーン表現を共同で再構築する,新しいフィードフォワードフレームワークであるUni3Rを紹介する。
- 参考スコア(独自算出の注目度): 36.084665557986156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing and semantically interpreting 3D scenes from sparse 2D views remains a fundamental challenge in computer vision. Conventional methods often decouple semantic understanding from reconstruction or necessitate costly per-scene optimization, thereby restricting their scalability and generalizability. In this paper, we introduce Uni3R, a novel feed-forward framework that jointly reconstructs a unified 3D scene representation enriched with open-vocabulary semantics, directly from unposed multi-view images. Our approach leverages a Cross-View Transformer to robustly integrate information across arbitrary multi-view inputs, which then regresses a set of 3D Gaussian primitives endowed with semantic feature fields. This unified representation facilitates high-fidelity novel view synthesis, open-vocabulary 3D semantic segmentation, and depth prediction, all within a single, feed-forward pass. Extensive experiments demonstrate that Uni3R establishes a new state-of-the-art across multiple benchmarks, including 25.07 PSNR on RE10K and 55.84 mIoU on ScanNet. Our work signifies a novel paradigm towards generalizable, unified 3D scene reconstruction and understanding. The code is available at https://github.com/HorizonRobotics/Uni3R.
- Abstract(参考訳): スパース2Dビューから3Dシーンを再構築し、意味的に解釈することは、コンピュータビジョンの根本的な課題である。
従来の手法では、セマンティックな理解を再構築から切り離したり、シーンごとの最適化にコストがかかるため、スケーラビリティや一般化性は制限される。
本稿では,オープンな語彙のセマンティクスに富んだ統一された3次元シーン表現を,未提示のマルチビュー画像から直接再構築する,新しいフィードフォワードフレームワークUni3Rを紹介する。
提案手法では,クロスビュートランスフォーマーを用いて任意のマルチビューインプット間で情報を堅牢に統合し,セマンティックな特徴フィールドを備えた3Dガウスプリミティブの集合を回帰する。
この統一表現は、単一のフィードフォワードパス内で、高忠実なノベルビュー合成、オープンボキャブラリ3Dセマンティックセグメンテーション、深さ予測を促進する。
大規模な実験により、Uni3RはRE10Kの25.07 PSNRとScanNetの55.84 mIoUを含む複数のベンチマークで新しい最先端技術を確立している。
我々の研究は、汎用的で統一された3Dシーンの再構築と理解に向けた新しいパラダイムを示している。
コードはhttps://github.com/HorizonRobotics/Uni3Rで公開されている。
関連論文リスト
- UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images [43.40816438003861]
本稿では,3次元シーンとセマンティックフィールドの再構成を統一したフィードフォワードモデルを提案する。
我々のUniForwardは、スパースビュー画像のみから、3Dシーンと対応するセマンティックフィールドをリアルタイムで再構築することができる。
新規なビュー合成と新規なビューセグメンテーションの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T04:01:21Z) - OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View [74.58230239274123]
一般化可能な3次元再構成において視野を拡大するオープンガウス成長法であるOGGSplatを提案する。
我々の重要な洞察は、オープンガウスのセマンティックな属性が、画像外挿の強い先行性を提供するということである。
OGGSplatはまた、スマートフォンカメラから直接撮影される2つのビューイメージを備えた場合、有望なセマンティック・アウェア・シーン再構築機能を示す。
論文 参考訳(メタデータ) (2025-06-05T16:17:18Z) - CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image [18.445769892372528]
単視点3Dシーン再構成のための新しい一般化可能なトランスフォーマーベースのフレームワークであるCATSplatを紹介する。
シーン固有のコンテキストの詳細をテキスト埋め込みからクロスアテンションに組み込むことで、コンテキスト認識の再構築の道を開く。
大規模データセットを用いた実験により, 単視点3次元シーン再構成におけるCATSplatの最先端性能が実証された。
論文 参考訳(メタデータ) (2024-12-17T13:32:04Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。