論文の概要: A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2508.05064v1
- Date: Thu, 07 Aug 2025 06:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.725919
- Title: A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding
- Title(参考訳): 3次元シーン理解のための言語埋め込みのフレームワークと実世界の応用に関する研究
- Authors: Mahmoud Chick Zaouali, Todd Charter, Yehor Karpichev, Brandon Haworth, Homayoun Najjjaran,
- Abstract要約: Gaussian Splattingはリアルタイム3Dシーン表現の変換技術として登場した。
複雑なシーンを高い忠実度でレンダリングする能力は、シーン再構築、ロボティクス、インタラクティブなコンテンツ作成といった領域をまたいだ進歩を可能にした。
本調査では,言語指導と3次元ガウススプラッティングを組み合わせた最近の研究成果について概説する。
- 参考スコア(独自算出の注目度): 0.48065284262360775
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gaussian Splatting has rapidly emerged as a transformative technique for real-time 3D scene representation, offering a highly efficient and expressive alternative to Neural Radiance Fields (NeRF). Its ability to render complex scenes with high fidelity has enabled progress across domains such as scene reconstruction, robotics, and interactive content creation. More recently, the integration of Large Language Models (LLMs) and language embeddings into Gaussian Splatting pipelines has opened new possibilities for text-conditioned generation, editing, and semantic scene understanding. Despite these advances, a comprehensive overview of this emerging intersection has been lacking. This survey presents a structured review of current research efforts that combine language guidance with 3D Gaussian Splatting, detailing theoretical foundations, integration strategies, and real-world use cases. We highlight key limitations such as computational bottlenecks, generalizability, and the scarcity of semantically annotated 3D Gaussian data and outline open challenges and future directions for advancing language-guided 3D scene understanding using Gaussian Splatting.
- Abstract(参考訳): ガウススプラッティングはリアルタイム3次元シーン表現の変換技術として急速に発展し、ニューラルレイディアンスフィールド(NeRF)の高効率で表現力のある代替手段を提供している。
複雑なシーンを高い忠実度でレンダリングする能力は、シーン再構築、ロボティクス、インタラクティブなコンテンツ作成といった領域をまたいだ進歩を可能にした。
最近では、大言語モデル(LLM)とガウススプラッティングパイプラインへの言語埋め込みの統合により、テキスト条件付き生成、編集、セマンティックシーン理解の新たな可能性が高まっている。
これらの進歩にもかかわらず、この出現する交差点の包括的概要は欠落している。
本調査では,言語指導と3次元ガウススプラッティングを併用した最近の研究成果について,理論的基礎,統合戦略,実世界のユースケースについて概説する。
計算ボトルネックや一般化可能性,意味的に注釈付けされた3Dガウスデータの不足といった重要な制約を強調し,ガウススプラッティングを用いた言語誘導3Dシーン理解に向けたオープンな課題と今後の方向性を概説する。
関連論文リスト
- OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。
また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。
提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文 参考訳(メタデータ) (2025-08-02T02:22:36Z) - LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion [21.828264119753502]
LangScene-Xは、3D一貫したマルチモダリティ情報を統一し、生成する新しい生成フレームワークである。
より一貫した新しい観察を創造する生成能力によって、我々はスパースビューのみから一般化可能な3D言語埋め込みシーンを構築することができる。
論文 参考訳(メタデータ) (2025-07-03T17:21:23Z) - GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している
本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。
本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文 参考訳(メタデータ) (2025-07-01T15:52:59Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - SuperGSeg: Open-Vocabulary 3D Segmentation with Structured Super-Gaussians [77.77265204740037]
3D Gaussian Splattingは、その効率的なトレーニングとリアルタイムレンダリングで注目を集めている。
我々は,協調型コンテキスト認識シーン表現を促進する新しいアプローチであるSuperGSegを紹介する。
SuperGSegは、オープン語彙オブジェクトローカライゼーションとセマンティックセグメンテーションタスクの両方において、以前の作業より優れている。
論文 参考訳(メタデータ) (2024-12-13T16:01:19Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - A Survey on 3D Gaussian Splatting [51.96747208581275]
3D Gaussian splatting (GS) は、明示的な放射場とコンピュータグラフィックスの変換技術として登場した。
本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。
前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアなど、数多くのアプリケーションを開くことができる。
論文 参考訳(メタデータ) (2024-01-08T13:42:59Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。