Fugu-MT 論文翻訳(概要): LangSplat: 3D Language Gaussian Splatting

論文の概要: LangSplat: 3D Language Gaussian Splatting

arxiv url: http://arxiv.org/abs/2312.16084v2
Date: Sun, 31 Mar 2024 04:45:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 14:35:39.256497
Title: LangSplat: 3D Language Gaussian Splatting
Title（参考訳）: LangSplat: 3D言語ガウススティング
Authors: Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister,
Abstract要約: LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。 LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
参考スコア（独自算出の注目度）: 42.16849512832556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans live in a 3D world and commonly use natural language to interact with a 3D scene. Modeling a 3D language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces LangSplat, which constructs a 3D language field that enables precise and efficient open-vocabulary querying within 3D spaces. Unlike existing methods that ground CLIP language embeddings in a NeRF model, LangSplat advances the field by utilizing a collection of 3D Gaussians, each encoding language features distilled from CLIP, to represent the language field. By employing a tile-based splatting technique for rendering language features, we circumvent the costly rendering process inherent in NeRF. Instead of directly learning CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and then learns language features on the scene-specific latent space, thereby alleviating substantial memory demands imposed by explicit modeling. Existing methods struggle with imprecise and vague 3D language fields, which fail to discern clear boundaries between objects. We delve into this issue and propose to learn hierarchical semantics using SAM, thereby eliminating the need for extensively querying the language field across various scales and the regularization of DINO features. Extensive experimental results show that LangSplat significantly outperforms the previous state-of-the-art method LERF by a large margin. Notably, LangSplat is extremely efficient, achieving a 199 $\times$ speedup compared to LERF at the resolution of 1440 $\times$ 1080. We strongly recommend readers to check out our video results at https://langsplat.github.io/
Abstract（参考訳）: 人間は3Dの世界に住んでおり、一般的に自然言語を使って3Dシーンと対話する。 3Dでオープンな言語クエリをサポートするために、3D言語フィールドをモデル化することは、最近注目を集めている。本稿では,3次元空間内でのオープン語彙クエリを高精度かつ効率的に行える3次元言語フィールドを構築するLangSplatを紹介する。 NeRFモデルにCLIP言語を埋め込む既存の方法とは異なり、LangSplatは言語分野を表現するためにCLIPから蒸留された3Dガウシアン(英語版)のコレクションを利用して、フィールドを前進させる。タイルベースのスプラッティング技術を用いて言語特徴をレンダリングすることで、NeRF固有のコストのかかるレンダリングプロセスを回避できる。 CLIPの埋め込みを直接学習する代わりに、LangSplatはまずシーンワイドな言語オートエンコーダをトレーニングし、次にシーン固有の潜在空間で言語機能を学ぶ。既存のメソッドは不正確で曖昧な3D言語フィールドに苦しむため、オブジェクト間の明確な境界を識別できない。この問題を掘り下げ,SAMを用いて階層的意味論を学習することを提案する。これにより,さまざまなスケールで言語フィールドを広範囲に問い合わせる必要がなくなり,DINO機能の正規化も不要になる。実験結果から,LangSplatは従来手法のLERFよりも高い性能を示した。特に、LangSplatは非常に効率的で、LERFに比べて199ドル(約1万4000円)のスピードアップを実現しています。ビデオの結果はhttps://langsplat.github.io/で確認することを強く推奨します。

関連論文リスト

A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文参考訳（メタデータ） (2025-07-09T10:20:38Z)
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS [60.933341835615465]
LangSplatV2は、476.2 FPSで高次元特徴スプラッティングを実現し、384.6 FPSで3Dオープン語彙のテキストクエリを実現する。 LangSplatV2は、より良いまたは競争力のあるクエリ精度を達成するだけでなく、はるかに高速である。
論文参考訳（メタデータ） (2025-07-09T00:19:58Z)
GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文参考訳（メタデータ） (2025-07-01T15:52:59Z)
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文参考訳（メタデータ） (2025-03-30T03:40:35Z)
4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models [58.80200897869225]
動的シーンにおいて,時間に依存しない,あるいは時間に敏感なオープン語彙クエリを効率的に処理するために,4D言語フィールドを学習する4D LangSplatを提案する。 4D LangSplatは視覚機能から言語フィールドをバイパスし、オブジェクトワイドビデオキャプションから生成されたテキストから直接学習する。以上の結果から、4D LangSplatは時間に敏感かつ時間に依存しないオープン語彙クエリに対して,正確かつ効率的な結果が得られることが示された。
論文参考訳（メタデータ） (2025-03-13T14:58:22Z)
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-02-23T17:01:14Z)
LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding [42.750252190275546]
LangSurfは3D言語フィールドとオブジェクトの表面を整列する言語組み込みのSurface Fieldである。提案手法は,オブジェクトを3次元空間に分割することで,インスタンス認識,削除,編集におけるアプローチの有効性を高めることができる。
論文参考訳（メタデータ） (2024-12-23T15:12:20Z)
ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文参考訳（メタデータ） (2024-12-01T08:59:30Z)
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。 GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文参考訳（メタデータ） (2024-05-27T18:57:18Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。 Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文参考訳（メタデータ） (2024-04-30T02:48:20Z)
Can 3D Vision-Language Models Truly Understand Natural Language? [42.73664281910605]
既存の3D-VLモデルは言語入力のスタイルに敏感であり、同じ意味を持つ文を理解するのに苦労するが、異なる変種で書かれる。本稿では,様々なタスクにまたがって3D-VLモデルを体系的に評価し,異なる言語スタイルのバリエーションを提示した場合のパフォーマンスをベンチマークする言語頑健性タスクを提案する。包括的評価により,様々な3D-VLタスクにまたがる既存モデルの性能低下が明らかとなった。最先端の3D-LLMでさえ、同じ文の変種を理解することができない。
論文参考訳（メタデータ） (2024-03-21T18:02:20Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。 LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文参考訳（メタデータ） (2023-09-21T17:59:45Z)
Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文参考訳（メタデータ） (2023-09-08T19:27:01Z)
LERF: Language Embedded Radiance Fields [35.925752853115476]
Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。 LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
論文参考訳（メタデータ） (2023-03-16T17:59:20Z)
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文参考訳（メタデータ） (2022-11-29T15:52:22Z)
Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。 3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文参考訳（メタデータ） (2021-12-16T13:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。