論文の概要: FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views
- arxiv url: http://arxiv.org/abs/2512.17541v1
- Date: Fri, 19 Dec 2025 13:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.393072
- Title: FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views
- Title(参考訳): FLEG: フィードフォワード言語を組み込んだガウススプレイティング
- Authors: Qijian Tian, Xin Tan, Jiayu Ying, Xuhong Wang, Yuan Xie, Lizhuang Ma,
- Abstract要約: FLEGは、言語に埋め込まれた3Dガウシアンをあらゆる視点から再構築するフィードフォワードネットワークである。
任意の非校正画像から2次元から3次元へのリフトのための3Dアノテーションのないトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.02871618456553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FLEG, a feed-forward network that reconstructs language-embedded 3D Gaussians from any views. Previous straightforward solutions combine feed-forward reconstruction with Gaussian heads but suffer from fixed input views and insufficient 3D training data. In contrast, we propose a 3D-annotation-free training framework for 2D-to-3D lifting from arbitrary uncalibrated and unposed multi-view images. Since the framework does not require 3D annotations, we can leverage large-scale video data with easily obtained 2D instance information to enrich semantic embedding. We also propose an instance-guided contrastive learning to align 2D semantics with the 3D representations. In addition, to mitigate the high memory and computational cost of dense views, we further propose a geometry-semantic hierarchical sparsification strategy. Our FLEG efficiently reconstructs language-embedded 3D Gaussian representation in a feed-forward manner from arbitrary sparse or dense views, jointly producing accurate geometry, high-fidelity appearance, and language-aligned semantics. Extensive experiments show that it outperforms existing methods on various related tasks. Project page: https://fangzhou2000.github.io/projects/fleg.
- Abstract(参考訳): FLEGは,言語に埋め込まれた3Dガウス語を任意の視点から再構築するフィードフォワードネットワークである。
従来の単純解法では、フィードフォワードとガウスヘッドを組み合わせるが、固定された入力ビューと不十分な3Dトレーニングデータに悩まされる。
対照的に,任意のアンキャリブレーションとアンポーズなマルチビュー画像から2次元から3次元へのリフトを行うための3次元アノテーションのないトレーニングフレームワークを提案する。
フレームワークは3Dアノテーションを必要としないため,簡単に取得可能な2Dインスタンス情報による大規模ビデオデータを活用することで,セマンティック埋め込みを充実させることができる。
また,2次元のセマンティクスを3次元表現と整合させるために,事例誘導型コントラスト学習を提案する。
さらに,高メモリ化と高密度ビューの計算コストの低減を図るため,幾何学的階層的階層化戦略を提案する。
FLEGは任意のスパースや高密度ビューから,言語埋め込み型3次元ガウス表現をフィードフォワード的に効率的に再構築し,高精度な幾何学,高忠実な外観,言語対応セマンティクスを共同で生成する。
大規模な実験により、様々なタスクにおいて既存の手法よりも優れていることが示された。
プロジェクトページ: https://fangzhou2000.github.io/projects/fleg.com
関連論文リスト
- GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting [74.56128224977279]
GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。
GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。
シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
論文 参考訳(メタデータ) (2025-08-19T21:26:49Z) - Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。
2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文 参考訳(メタデータ) (2024-08-19T17:55:17Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。