論文の概要: LangFlash: Feed-forward 3D Language Gaussian Splatting from Sparse Unposed Images
- arxiv url: http://arxiv.org/abs/2605.23287v1
- Date: Fri, 22 May 2026 06:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.230772
- Title: LangFlash: Feed-forward 3D Language Gaussian Splatting from Sparse Unposed Images
- Title(参考訳): LangFlash: スパースアンポーズ画像からのフィードフォワード3D言語ガウススティング
- Authors: Yilong Liu, Wanhua Li, Chen Zhu-Tian, Hanspeter Pfister,
- Abstract要約: LangFlashは3D言語ガウススプティングのためのフィードフォワードフレームワークである。
LangFlashは、単一の前方パスでジオメトリとセマンティクスを直接予測する。
本稿では,グローバルな意味辞書と局所的に変化する原単位の重みを結合したスパース意味符号化方式を提案する。
- 参考スコア(独自算出の注目度): 30.52329450141629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present LangFlash, a feed-forward framework for 3D Language Gaussian Splatting that reconstructs 3D scenes parameterized by Gaussian primitives enriched with language-aligned semantic features from sparse unposed multi-view images. Unlike optimization-based 3D methods, LangFlash directly predicts the geometry and semantics in a single forward pass, enabling low-latency 3D reconstruction and language-consistent scene understanding. To support large-scale training, we enriched the RealEstate10k dataset with coherent and dense semantic information for 3D semantic supervision. Furthermore, we propose a sparse semantic encoding scheme that combines a global semantic dictionary with locally varying per-primitive weights, preserving high-level linguistic information, while reducing representation complexity. Experimental results show that LangFlash achieves superior novel view synthesis and semantic consistency compared with previous methods. This study establishes a new paradigm for pose-free, language-grounded 3D scene reconstruction, advancing generalizable 3D vision and multimodal scene understanding. Demo is available at https://liylo.github.io/langflash.github.io/.
- Abstract(参考訳): 我々は,ガウス的プリミティブによってパラメータ化された3次元シーンを,スパースな多視点画像から言語対応のセマンティック特徴に富んだ3次元シーンを再構成する3次元言語ガウス的スプラッティングのためのフィードフォワードフレームワークであるLangFlashを提案する。
最適化ベースの3D手法とは異なり、LangFlashは1つの前方パスにおける幾何学と意味を直接予測し、低レイテンシな3D再構成と言語一貫性のあるシーン理解を可能にする。
大規模トレーニングを支援するため、我々はRealEstate10kデータセットに3Dセマンティックインスペクションのためのコヒーレントで高密度なセマンティック情報を加えました。
さらに,グローバルな意味辞書と局所的に異なる主語単位の重み付けを組み合わせたスパース意味符号化方式を提案し,表現の複雑さを低減しつつ,高レベルな言語情報を保存する。
実験結果から,LangFlashは従来の手法と比較して,より優れた新規なビュー合成とセマンティック一貫性を実現することが示された。
本研究は、ポーズレスで言語を基盤とした3Dシーン再構築、一般化可能な3Dビジョンの進歩、マルチモーダルシーン理解のための新しいパラダイムを確立する。
Demoはhttps://liylo.github.io/langflash.github.io/で公開されている。
関連論文リスト
- FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views [52.02871618456553]
FLEGは、言語に埋め込まれた3Dガウシアンをあらゆる視点から再構築するフィードフォワードネットワークである。
任意の非校正画像から2次元から3次元へのリフトのための3Dアノテーションのないトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-19T13:04:13Z) - Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion [21.828264119753502]
LangScene-Xは、3D一貫したマルチモダリティ情報を統一し、生成する新しい生成フレームワークである。
より一貫した新しい観察を創造する生成能力によって、我々はスパースビューのみから一般化可能な3D言語埋め込みシーンを構築することができる。
論文 参考訳(メタデータ) (2025-07-03T17:21:23Z) - SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields [33.113865514268085]
ホロスティックな3Dシーン理解は、拡張現実やロボットインタラクションといったアプリケーションには不可欠だ。
既存のフィードフォワード3Dシーン理解手法(例えば、LSM)は、シーンから言語ベースのセマンティクスを抽出することに限定されている。
フィードフォワード型セマンティック3D再構成手法であるSemanticSplatを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:56:39Z) - Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。