Fugu-MT 論文翻訳(概要): EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

論文の概要: EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

arxiv url: http://arxiv.org/abs/2603.04254v1
Date: Wed, 04 Mar 2026 16:40:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.405119
Title: EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
Title（参考訳）: EmbodiedSplat: オープン語彙3Dシーン理解のためのオンラインフィードフォワードセマンティック3DGS
Authors: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee,
Abstract要約: EmbodiedSplatは、オープン語彙シーン理解のためのオンラインフィードフォワード3DGSである。目的は,1)300以上のストリーミング画像からシーン全体のセマンティック埋め込み3DGSをオンライン的に再構成すること,2)フィードフォワードデザインの新規シーンに高度に一般化することである。
参考スコア（独自算出の注目度）: 66.80528512321106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.
Abstract（参考訳）: エージェントはオンラインでほぼリアルタイムで3Dシーンを構築し理解しなければならない。本研究では,オープン語彙シーン理解のためのオンラインフィードフォワード3DGSであるEmbodiedSplatを提案する。通常、オフラインまたはシーンごとの最適化設定に制限されている既存のオープン語彙3DGSメソッドとは異なり、我々の目標は2つある。 1)300枚以上のストリーミング画像から,シーン全体のセマンティック埋め込み3DGSをオンライン的に再構成する。 2) フィードフォワードデザインの新規シーンに高度に一般化可能であり, リアルタイム2次元モデルと組み合わせることで, ほぼリアルタイムな3次元セマンティック再構築を支援する。これらの目的を達成するために,CLIP Global Codebook を用いた Online Sparse Coefficients Field を提案する。さらに、3次元U-Netを通して3次元GSの部分点雲を集約し、3次元の幾何学的特徴を2次元指向言語埋め込みに先立って補うことで、3次元幾何認識CLIP特徴を生成する。 ScanNet,ScanNet++,Replicaなど,さまざまな屋内データセットに対する大規模な実験により,本手法の有効性と効率性を実証した。プロジェクトのページはhttps://0nandon.github.io/EmbodiedSplat/にある。

関連論文リスト

Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。 UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文参考訳（メタデータ） (2025-12-16T12:49:35Z)
EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文参考訳（メタデータ） (2025-10-29T03:56:41Z)
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-02-23T17:01:14Z)
PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文参考訳（メタデータ） (2024-12-31T08:58:10Z)
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
問題を再定義し、3次元のボリュームを分割し、以下の方法を提案する。従来の2Dピクセルの監督を代行する手法とは異なり、言語埋め込みフィールドをトレーニングするための3Dポイントを直接監督する。学習した言語フィールドを3DGSに転送し、トレーニング時間や精度を犠牲にすることなく、最初のリアルタイムレンダリング速度を達成する。
論文参考訳（メタデータ） (2024-08-14T09:50:02Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-07T17:47:52Z)
Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。 3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文参考訳（メタデータ） (2022-11-25T15:03:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。