論文の概要: FMLGS: Fast Multilevel Language Embedded Gaussians for Part-level Interactive Agents
- arxiv url: http://arxiv.org/abs/2504.08581v1
- Date: Fri, 11 Apr 2025 14:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 17:09:28.26358
- Title: FMLGS: Fast Multilevel Language Embedded Gaussians for Part-level Interactive Agents
- Title(参考訳): FMLGS: パートレベルの対話エージェントのための高速なマルチレベル言語組み込みガウス
- Authors: Xin Tan, Yuzhou Ji, He Zhu, Yuan Xie,
- Abstract要約: FMLGSは3次元ガウススプラッティングにおける部分レベルのオープン語彙クエリをサポートするアプローチである(3DGS)。
対象部品間の言語あいまいさを解消する意味的偏差戦略を考案した。
提案手法は, 特定対象の特定だけでなく, 速度と精度の両面において, 最優先性能を達成できる。
- 参考スコア(独自算出の注目度): 23.620615939511254
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The semantically interactive radiance field has long been a promising backbone for 3D real-world applications, such as embodied AI to achieve scene understanding and manipulation. However, multi-granularity interaction remains a challenging task due to the ambiguity of language and degraded quality when it comes to queries upon object components. In this work, we present FMLGS, an approach that supports part-level open-vocabulary query within 3D Gaussian Splatting (3DGS). We propose an efficient pipeline for building and querying consistent object- and part-level semantics based on Segment Anything Model 2 (SAM2). We designed a semantic deviation strategy to solve the problem of language ambiguity among object parts, which interpolates the semantic features of fine-grained targets for enriched information. Once trained, we can query both objects and their describable parts using natural language. Comparisons with other state-of-the-art methods prove that our method can not only better locate specified part-level targets, but also achieve first-place performance concerning both speed and accuracy, where FMLGS is 98 x faster than LERF, 4 x faster than LangSplat and 2.5 x faster than LEGaussians. Meanwhile, we further integrate FMLGS as a virtual agent that can interactively navigate through 3D scenes, locate targets, and respond to user demands through a chat interface, which demonstrates the potential of our work to be further expanded and applied in the future.
- Abstract(参考訳): セマンティックなインタラクティブなラディアンスフィールドは、シーンの理解と操作を実現するために、組み込みAIのような3D現実世界のアプリケーションにとって有望なバックボーンだった。
しかし、言語の不明瞭さとオブジェクトコンポーネントのクエリに関して品質の劣化のため、多言語間相互作用は依然として難しい課題である。
本研究では,FMLGSを提案する。FMLGSは3次元ガウススプラッティング(3DGS)内の部分レベルのオープン語彙クエリをサポートするアプローチである。
本稿では,Segment Anything Model 2 (SAM2) に基づく一貫性のあるオブジェクトと部分レベルのセマンティクスの構築とクエリのための効率的なパイプラインを提案する。
本研究では,対象部分間の言語あいまいさを解消する意味的逸脱戦略を考案し,情報豊か化のための微細な対象のセマンティックな特徴を補間した。
一度トレーニングすれば、自然言語を使って、オブジェクトとその記述可能な部分の両方を問い合わせることができます。
FMLGSはLERFの98倍,LangSplatの4倍,LEGaussianの2.5倍の4倍の速さである。
また,FMLGSを仮想エージェントとして統合し,対話的に3Dシーンをナビゲートし,ターゲットを特定し,チャットインターフェースを通じてユーザ要求に応答する。
関連論文リスト
- SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models [9.568997654206823]
SORT3Dは2Dデータからリッチなオブジェクト属性を利用し、大規模言語モデルの能力とAsベースの空間推論ツールボックスをマージするアプローチである。
2つのベンチマークにおいて、複雑なビュー依存のグラウンド化タスクにおいて、SORT3Dが最先端のパフォーマンスを達成することを示す。
私たちはまた、パイプラインを実装して、自動運転車でリアルタイムに実行し、我々のアプローチが、これまで見えなかった現実世界の環境において、オブジェクトゴールナビゲーションに使用できることを実証しています。
論文 参考訳(メタデータ) (2025-04-25T20:24:11Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。
現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文 参考訳(メタデータ) (2025-03-10T23:13:35Z) - LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding [42.750252190275546]
LangSurfは3D言語フィールドとオブジェクトの表面を整列する言語組み込みのSurface Fieldである。
提案手法は,オブジェクトを3次元空間に分割することで,インスタンス認識,削除,編集におけるアプローチの有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-23T15:12:20Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。