論文の概要: Online Language Splatting
- arxiv url: http://arxiv.org/abs/2503.09447v1
- Date: Wed, 12 Mar 2025 14:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.811621
- Title: Online Language Splatting
- Title(参考訳): オンライン言語スプラッティング
- Authors: Saimouli Katragadda, Cho-Ying Wu, Yuliang Guo, Xinyu Huang, Guoquan Huang, Liu Ren,
- Abstract要約: 3DGS-SLAMシステム内で、オンライン、ほぼリアルタイムでオープン語彙の言語マッピングを実現するための最初のフレームワークであるOnline Language Splattingを紹介する。
我々のオンライン手法は最先端のオフライン手法を精度良く超え,40倍以上の効率向上を実現している。
- 参考スコア(独自算出の注目度): 22.49259910339351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enable AI agents to interact seamlessly with both humans and 3D environments, they must not only perceive the 3D world accurately but also align human language with 3D spatial representations. While prior work has made significant progress by integrating language features into geometrically detailed 3D scene representations using 3D Gaussian Splatting (GS), these approaches rely on computationally intensive offline preprocessing of language features for each input image, limiting adaptability to new environments. In this work, we introduce Online Language Splatting, the first framework to achieve online, near real-time, open-vocabulary language mapping within a 3DGS-SLAM system without requiring pre-generated language features. The key challenge lies in efficiently fusing high-dimensional language features into 3D representations while balancing the computation speed, memory usage, rendering quality and open-vocabulary capability. To this end, we innovatively design: (1) a high-resolution CLIP embedding module capable of generating detailed language feature maps in 18ms per frame, (2) a two-stage online auto-encoder that compresses 768-dimensional CLIP features to 15 dimensions while preserving open-vocabulary capabilities, and (3) a color-language disentangled optimization approach to improve rendering quality. Experimental results show that our online method not only surpasses the state-of-the-art offline methods in accuracy but also achieves more than 40x efficiency boost, demonstrating the potential for dynamic and interactive AI applications.
- Abstract(参考訳): AIエージェントが人間と3D環境の両方とシームレスに対話できるようにするためには、3Dの世界を正確に知覚するだけでなく、人間の言語を3D空間表現と整合させる必要がある。
言語特徴を幾何学的に詳細な3次元シーン表現に3D Gaussian Splatting (GS) を用いて統合することで,従来の作業は大きな進歩を遂げてきたが,これらのアプローチは,各入力画像に対する言語特徴の計算集約的なオフライン前処理に依存し,新しい環境への適応性を制限する。
本研究では,3DGS-SLAMシステム内で,事前生成言語機能を必要としないオンライン,ほぼリアルタイムなオープン語彙言語マッピングを実現するための,最初のフレームワークであるOnline Language Splattingを紹介する。
重要な課題は、計算速度、メモリ使用量、レンダリング品質、オープン語彙能力のバランスを保ちながら、高次元言語機能を3D表現に効率的に融合させることである。
この目的のために,(1) フレーム毎18msの詳細な言語特徴マップを生成可能な高解像度CLIP埋め込みモジュール,(2) オープン語彙を保ちながら768次元のCLIP特徴を15次元に圧縮する2段階のオンライン自動エンコーダ,(3) レンダリング品質を向上させるためのカラー言語不整合最適化アプローチを設計した。
実験の結果,我々のオンライン手法は最先端のオフライン手法を精度で上回るだけでなく,40倍以上の効率向上を実現し,動的かつインタラクティブなAIアプリケーションの可能性を示している。
関連論文リスト
- 4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models [58.80200897869225]
動的シーンにおいて,時間に依存しない,あるいは時間に敏感なオープン語彙クエリを効率的に処理するために,4D言語フィールドを学習する4D LangSplatを提案する。
4D LangSplatは視覚機能から言語フィールドをバイパスし、オブジェクトワイドビデオキャプションから生成されたテキストから直接学習する。
以上の結果から、4D LangSplatは時間に敏感かつ時間に依存しないオープン語彙クエリに対して,正確かつ効率的な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-03-13T14:58:22Z) - Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。
本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。
実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-02-23T17:01:14Z) - ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - 4-LEGS: 4D Language Embedded Gaussian Splatting [12.699978393733309]
3次元ガウシアンティングに基づく4次元表現に時間的特徴を持ち上げる方法を示す。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時間的にローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
論文 参考訳(メタデータ) (2024-10-14T17:00:53Z) - O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。
オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:54:43Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding [46.253711788685536]
複数の2次元基礎モデルから派生した3次元視覚言語対を融合する3次元認識型SFusion戦略を導入する。
我々は、堅牢で効果的な3D学習を実現するために、地域対応のポイント識別型コントラスト学習目標を考案する。
我々のモデルは、セマンティックスとインスタンスセグメンテーションにおいて、平均17.2%と9.1%の3Dオープンワールドシーン理解アプローチよりも優れている。
論文 参考訳(メタデータ) (2023-04-03T13:30:04Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。