論文の概要: LangSplat: 3D Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2312.16084v1
- Date: Tue, 26 Dec 2023 15:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:00:37.669408
- Title: LangSplat: 3D Language Gaussian Splatting
- Title(参考訳): LangSplat: 3D言語ガウススティング
- Authors: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister
- Abstract要約: LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドである。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
- 参考スコア(独自算出の注目度): 45.24029938947954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human lives in a 3D world and commonly uses natural language to interact with
a 3D scene. Modeling a 3D language field to support open-ended language queries
in 3D has gained increasing attention recently. This paper introduces
LangSplat, which constructs a 3D language field that enables precise and
efficient open-vocabulary querying within 3D spaces. Unlike existing methods
that ground CLIP language embeddings in a NeRF model, LangSplat advances the
field by utilizing a collection of 3D Gaussians, each encoding language
features distilled from CLIP, to represent the language field. By employing a
tile-based splatting technique for rendering language features, we circumvent
the costly rendering process inherent in NeRF. Instead of directly learning
CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and
then learns language features on the scene-specific latent space, thereby
alleviating substantial memory demands imposed by explicit modeling. Existing
methods struggle with imprecise and vague 3D language fields, which fail to
discern clear boundaries between objects. We delve into this issue and propose
to learn hierarchical semantics using SAM, thereby eliminating the need for
extensively querying the language field across various scales and the
regularization of DINO features. Extensive experiments on open-vocabulary 3D
object localization and semantic segmentation demonstrate that LangSplat
significantly outperforms the previous state-of-the-art method LERF by a large
margin. Notably, LangSplat is extremely efficient, achieving a {\speed}
$\times$ speedup compared to LERF at the resolution of 1440 $\times$ 1080. We
strongly recommend readers to check out our video results at
https://langsplat.github.io
- Abstract(参考訳): 人間は3dの世界に住んでおり、自然言語を使って3dシーンと対話する。
3dでオープンソースの言語クエリをサポートするための3d言語フィールドのモデリングが最近注目を集めている。
本稿では,3次元空間内でのオープン語彙クエリを高精度かつ効率的に行える3次元言語フィールドを構築するLangSplatを紹介する。
NeRFモデルにCLIP言語を埋め込む既存の方法とは異なり、LangSplatは言語分野を表現するためにCLIPから蒸留された3Dガウシアン(英語版)のコレクションを利用して、フィールドを前進させる。
タイルベースのスプラッティング技術を用いて言語特徴をレンダリングすることで、NeRF固有のコストのかかるレンダリングプロセスを回避できる。
CLIPの埋め込みを直接学習する代わりに、LangSplatはまずシーンワイドな言語オートエンコーダをトレーニングし、次にシーン固有の潜在空間で言語機能を学ぶ。
既存のメソッドは不正確で曖昧な3D言語フィールドに苦しむため、オブジェクト間の明確な境界を識別できない。
この問題を掘り下げ,SAMを用いて階層的意味論を学習することを提案する。これにより,さまざまなスケールで言語フィールドを広範囲に問い合わせる必要がなくなり,DINO機能の正規化も不要になる。
オープンボキャブラリ3Dオブジェクトの局所化とセマンティックセグメンテーションに関する大規模な実験により、LangSplatは従来の最先端手法LERFよりも大きなマージンで優れていることが示された。
特に、LangSplatは非常に効率的で、LERFに比べて1440$\times$1080の解像度で$\times$スピードアップを達成する。
ビデオの結果はhttps://langsplat.github.ioで確認することを強く推奨します。
関連論文リスト
- LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding [42.750252190275546]
LangSurfは3D言語フィールドとオブジェクトの表面を整列する言語組み込みのSurface Fieldである。
提案手法は,オブジェクトを3次元空間に分割することで,インスタンス認識,削除,編集におけるアプローチの有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-23T15:12:20Z) - Occam's LGS: A Simple Approach for Language Gaussian Splatting [57.00354758206751]
言語接地型3次元ガウススプラッティングの高度な技術は、単に不要であることを示す。
オッカムのカミソリを手作業に適用し、重み付けされた多視点特徴集計を行う。
我々の結果は2桁のスピードアップによる最先端の結果を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - LERF: Language Embedded Radiance Fields [35.925752853115476]
Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。
LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。
最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
論文 参考訳(メタデータ) (2023-03-16T17:59:20Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。