論文の概要: ChatSplat: 3D Conversational Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.00734v1
- Date: Sun, 01 Dec 2024 08:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:43.351748
- Title: ChatSplat: 3D Conversational Gaussian Splatting
- Title(参考訳): ChatSplat:3次元会話型ガウススプラッティング
- Authors: Hanlin Chen, Fangyin Wei, Gim Hee Lee,
- Abstract要約: ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
- 参考スコア(独自算出の注目度): 51.40403199909113
- License:
- Abstract: Humans naturally interact with their 3D surroundings using language, and modeling 3D language fields for scene understanding and interaction has gained growing interest. This paper introduces ChatSplat, a system that constructs a 3D language field, enabling rich chat-based interaction within 3D space. Unlike existing methods that primarily use CLIP-derived language features focused solely on segmentation, ChatSplat facilitates interaction on three levels: objects, views, and the entire 3D scene. For view-level interaction, we designed an encoder that encodes the rendered feature map of each view into tokens, which are then processed by a large language model (LLM) for conversation. At the scene level, ChatSplat combines multi-view tokens, enabling interactions that consider the entire scene. For object-level interaction, ChatSplat uses a patch-wise language embedding, unlike LangSplat's pixel-wise language embedding that implicitly includes mask and embedding. Here, we explicitly decouple the language embedding into separate mask and feature map representations, allowing more flexible object-level interaction. To address the challenge of learning 3D Gaussians posed by the complex and diverse distribution of language embeddings used in the LLM, we introduce a learnable normalization technique to standardize these embeddings, facilitating effective learning. Extensive experimental results demonstrate that ChatSplat supports multi-level interactions -- object, view, and scene -- within 3D space, enhancing both understanding and engagement.
- Abstract(参考訳): 人間は自然に言語を使って3D環境と対話し、シーン理解と対話のための3D言語フィールドをモデル化することが注目されている。
本稿では,3次元空間内でリッチなチャットベースの対話を可能にする3次元言語フィールド構築システムChatSplatを紹介する。
CLIPから派生した言語機能を主にセグメンテーションに特化している既存のメソッドとは異なり、ChatSplatはオブジェクト、ビュー、そして3Dシーン全体という3つのレベルでのインタラクションを促進する。
ビューレベルのインタラクションのために、各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し、会話のために大きな言語モデル(LLM)によって処理する。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
オブジェクトレベルのインタラクションでは、ChatSplatはパッチワイドな言語埋め込みを使用するが、LangSplatのピクセルワイドな言語埋め込みとは違い、マスクや埋め込みを暗黙的に含んでいる。
ここでは、言語を個別のマスクとフィーチャーマップ表現に明示的に分離し、より柔軟なオブジェクトレベルの相互作用を可能にします。
LLMで使用される言語埋め込みの複雑で多様な分布によって引き起こされる3Dガウス学習の課題に対処するために,これらの埋め込みを標準化するための学習可能な正規化手法を導入し,効果的な学習を容易にする。
大規模な実験結果によると、ChatSplatはオブジェクト、ビュー、シーンといったマルチレベルのインタラクションを3D空間内でサポートし、理解とエンゲージメントの両方を強化している。
関連論文リスト
- 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding [0.5755004576310334]
3Dシーングラフはコンパクトなシーンモデルを表し、オブジェクトに関する情報とそれらの間のセマンティックな関係を格納する。
本研究では,3Dシーングラフの学習可能な表現を構築するための3DGraphLLMを提案する。
学習可能な表現は、3次元視覚言語タスクの実行にLLMの入力として使用される。
論文 参考訳(メタデータ) (2024-12-24T14:21:58Z) - LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding [42.750252190275546]
LangSurfは3D言語フィールドとオブジェクトの表面を整列する言語組み込みのSurface Fieldである。
提案手法は,オブジェクトを3次元空間に分割することで,インスタンス認識,削除,編集におけるアプローチの有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-23T15:12:20Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - LERF: Language Embedded Radiance Fields [35.925752853115476]
Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。
LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。
最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
論文 参考訳(メタデータ) (2023-03-16T17:59:20Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。