論文の概要: LERF: Language Embedded Radiance Fields
- arxiv url: http://arxiv.org/abs/2303.09553v1
- Date: Thu, 16 Mar 2023 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:09:40.516425
- Title: LERF: Language Embedded Radiance Fields
- Title(参考訳): LERF: 言語組み込みのラジアンスフィールド
- Authors: Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew
Tancik
- Abstract要約: Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。
LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。
最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
- 参考スコア(独自算出の注目度): 35.925752853115476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans describe the physical world using natural language to refer to
specific 3D locations based on a vast range of properties: visual appearance,
semantics, abstract associations, or actionable affordances. In this work we
propose Language Embedded Radiance Fields (LERFs), a method for grounding
language embeddings from off-the-shelf models like CLIP into NeRF, which enable
these types of open-ended language queries in 3D. LERF learns a dense,
multi-scale language field inside NeRF by volume rendering CLIP embeddings
along training rays, supervising these embeddings across training views to
provide multi-view consistency and smooth the underlying language field. After
optimization, LERF can extract 3D relevancy maps for a broad range of language
prompts interactively in real-time, which has potential use cases in robotics,
understanding vision-language models, and interacting with 3D scenes. LERF
enables pixel-aligned, zero-shot queries on the distilled 3D CLIP embeddings
without relying on region proposals or masks, supporting long-tail
open-vocabulary queries hierarchically across the volume. The project website
can be found at https://lerf.io .
- Abstract(参考訳): 人間は、視覚的外観、意味論、抽象的関連、行動可能な余裕など、幅広い特性に基づいて、自然言語を使って特定の3D位置を指す物理世界を記述する。
本研究では,CLIPのような市販のモデルからNeRFへの言語埋め込みを基底にする方法であるLanguage Embedded Radiance Fields (LERFs)を提案する。
LERFは、トレーニング線に沿ったCLIP埋め込みを使用して、NeRF内の密集したマルチスケール言語フィールドを学習し、これらの埋め込みをトレーニングビュー全体で監視し、マルチビューの一貫性を提供し、基礎となる言語フィールドを円滑にする。
最適化後、LERFは、ロボット工学、視覚言語モデルの理解、そして3Dシーンとの対話といった潜在的なユースケースを持つ、幅広い言語プロンプトのための3D関連性マップをリアルタイムで抽出することができる。
LERFは、領域の提案やマスクに頼ることなく、蒸留した3D CLIP埋め込み上でピクセル整列のゼロショットクエリを可能にする。
プロジェクトのWebサイトはhttps://lerf.io.orgにある。
関連論文リスト
- POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - LangSplat: 3D Language Gaussian Splatting [45.24029938947954]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドである。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding [61.08479715422018]
3D Visual Groundingはテキスト記述に基づく3Dオブジェクトのローカライズを目的としている。
ゼロショットオープン語彙3DVGのための新しいビジュアルプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-11-26T19:01:14Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。
最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。
本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:52:22Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。