論文の概要: Taking Language Embedded 3D Gaussian Splatting into the Wild
- arxiv url: http://arxiv.org/abs/2507.19830v2
- Date: Tue, 05 Aug 2025 01:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.770504
- Title: Taking Language Embedded 3D Gaussian Splatting into the Wild
- Title(参考訳): 言語を埋め込んだ3Dガウスの野生化
- Authors: Yuze Wang, Yue Qi,
- Abstract要約: 制約のない写真コレクションからのオープン語彙シーン理解のための新しいフレームワークを提案する。
具体的には、まず同じ視点から複数の外観画像を描画し、次に複数出現するCLIP特徴を抽出する。
次に,言語特徴を効果的に圧縮し,学習し,融合させるための,過渡的不確実性を考慮したオートエンコーダ,多言語言語フィールド3DGS表現,および後アンサンブル戦略を提案する。
- 参考スコア(独自算出の注目度): 6.550474097747006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in leveraging large-scale Internet photo collections for 3D reconstruction have enabled immersive virtual exploration of landmarks and historic sites worldwide. However, little attention has been given to the immersive understanding of architectural styles and structural knowledge, which remains largely confined to browsing static text-image pairs. Therefore, can we draw inspiration from 3D in-the-wild reconstruction techniques and use unconstrained photo collections to create an immersive approach for understanding the 3D structure of architectural components? To this end, we extend language embedded 3D Gaussian splatting (3DGS) and propose a novel framework for open-vocabulary scene understanding from unconstrained photo collections. Specifically, we first render multiple appearance images from the same viewpoint as the unconstrained image with the reconstructed radiance field, then extract multi-appearance CLIP features and two types of language feature uncertainty maps-transient and appearance uncertainty-derived from the multi-appearance features to guide the subsequent optimization process. Next, we propose a transient uncertainty-aware autoencoder, a multi-appearance language field 3DGS representation, and a post-ensemble strategy to effectively compress, learn, and fuse language features from multiple appearances. Finally, to quantitatively evaluate our method, we introduce PT-OVS, a new benchmark dataset for assessing open-vocabulary segmentation performance on unconstrained photo collections. Experimental results show that our method outperforms existing methods, delivering accurate open-vocabulary segmentation and enabling applications such as interactive roaming with open-vocabulary queries, architectural style pattern recognition, and 3D scene editing.
- Abstract(参考訳): 近年の大規模なインターネット写真収集の3次元再構築への活用により、世界中のランドマークや史跡の没入型仮想探査が可能となった。
しかし、建築様式や構造知識の没入的な理解にはほとんど注意が払われていない。
したがって、3Dインザワイルドな再構築技術からインスピレーションを得て、制約のない写真コレクションを用いて、建築部品の3D構造を理解するための没入型アプローチを作成できるだろうか?
この目的のために,言語組み込み3Dガウススプラッティング(3DGS)を拡張し,制約のない写真コレクションからのオープン語彙シーン理解のための新しいフレームワークを提案する。
具体的には、まず、再構成された放射場と同一の視点から複数の外見画像を描画し、次に、その後の最適化プロセスを導くために、複数外見のCLIP特徴と2種類の言語特徴の不確実性マップを抽出する。
次に,過渡不確実性を認識したオートエンコーダ,複数出現言語フィールドの3DGS表現,および複数の外観から言語特徴を効果的に圧縮・学習・融合するための後アンサンブル戦略を提案する。
最後に,提案手法を定量的に評価するために,制約のない写真コレクション上での開語彙セグメンテーション性能を評価するためのベンチマークデータセットPT-OVSを導入する。
実験の結果,提案手法は既存の手法よりも優れており,正確なオープン語彙セグメンテーションを実現し,オープン語彙クエリを用いた対話的なローミング,アーキテクチャスタイルのパターン認識,3Dシーン編集などのアプリケーションを実現する。
関連論文リスト
- LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion [21.828264119753502]
LangScene-Xは、3D一貫したマルチモダリティ情報を統一し、生成する新しい生成フレームワークである。
より一貫した新しい観察を創造する生成能力によって、我々はスパースビューのみから一般化可能な3D言語埋め込みシーンを構築することができる。
論文 参考訳(メタデータ) (2025-07-03T17:21:23Z) - CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image [18.445769892372528]
単視点3Dシーン再構成のための新しい一般化可能なトランスフォーマーベースのフレームワークであるCATSplatを紹介する。
シーン固有のコンテキストの詳細をテキスト埋め込みからクロスアテンションに組み込むことで、コンテキスト認識の再構築の道を開く。
大規模データセットを用いた実験により, 単視点3次元シーン再構成におけるCATSplatの最先端性能が実証された。
論文 参考訳(メタデータ) (2024-12-17T13:32:04Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Towers of Babel: Combining Images, Language, and 3D Geometry for
Learning Multimodal Vision [50.07532560364523]
本稿では,字幕と階層的カテゴリ名という形で記述テキストを含む,ランドマーク写真コレクションの大規模データセットを提案する。
WikiScenesは、画像、テキスト、および3D幾何学を含むマルチモーダル推論のための新しいテストベッドを形成する。
論文 参考訳(メタデータ) (2021-08-12T17:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。