Fugu-MT 論文翻訳(概要): EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting

論文の概要: EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting

arxiv url: http://arxiv.org/abs/2503.11345v1
Date: Fri, 14 Mar 2025 12:21:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.315999
Title: EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting
Title（参考訳）: EgoSplat: 3Dガウススプティングを組み込んだオープン語彙のエゴセントリックなシーン理解
Authors: Di Li, Jie Feng, Jiahao Chen, Weisheng Dong, Guanbin Li, Guangming Shi, Licheng Jiao,
Abstract要約: EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。 EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 108.15136508964011
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Egocentric scenes exhibit frequent occlusions, varied viewpoints, and dynamic interactions compared to typical scene understanding tasks. Occlusions and varied viewpoints can lead to multi-view semantic inconsistencies, while dynamic objects may act as transient distractors, introducing artifacts into semantic feature modeling. To address these challenges, we propose EgoSplat, a language-embedded 3D Gaussian Splatting framework for open-vocabulary egocentric scene understanding. A multi-view consistent instance feature aggregation method is designed to leverage the segmentation and tracking capabilities of SAM2 to selectively aggregate complementary features across views for each instance, ensuring precise semantic representation of scenes. Additionally, an instance-aware spatial-temporal transient prediction module is constructed to improve spatial integrity and temporal continuity in predictions by incorporating spatial-temporal associations across multi-view instances, effectively reducing artifacts in the semantic reconstruction of egocentric scenes. EgoSplat achieves state-of-the-art performance in both localization and segmentation tasks on two datasets, outperforming existing methods with a 8.2% improvement in localization accuracy and a 3.7% improvement in segmentation mIoU on the ADT dataset, and setting a new benchmark in open-vocabulary egocentric scene understanding. The code will be made publicly available.
Abstract（参考訳）: エゴセントリックなシーンは、典型的なシーン理解タスクと比較して、頻繁に閉塞、様々な視点、動的相互作用を示す。咬合と様々な視点は、多視点の意味的矛盾を招き、動的オブジェクトは過渡的障害として機能し、意味的特徴モデリングにアーティファクトを導入します。これらの課題に対処するために,オープン語彙のエゴセントリックなシーン理解のための言語組み込み3Dガウス・スプレイティング・フレームワークであるEgoSplatを提案する。 SAM2のセグメンテーションとトラッキング機能を利用して、各インスタンスのビューにまたがる補完機能を選択的に集約し、シーンの正確な意味表現を確保するために、マルチビュー一貫したインスタンス特徴集計法が設計されている。さらに、多視点インスタンス間の空間的時間的関連を組み込むことにより、予測における空間的整合性と時間的連続性を向上し、エゴセントリックシーンのセマンティック再構築におけるアーティファクトを効果的に低減する。 EgoSplatは,2つのデータセット上でのローカライズタスクとセグメンテーションタスクの両面での最先端のパフォーマンスを実現し,ローカライズ精度8.2%,ADTデータセットでのセグメンテーションmIoU3.7%,オープンボキャブラリのエゴシックなシーン理解における新たなベンチマークの設定など,既存のメソッドよりも優れたパフォーマンスを実現している。コードは公開されます。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
SemanticFlow: A Self-Supervised Framework for Joint Scene Flow Prediction and Instance Segmentation in Dynamic Environments [10.303368447554591]
本稿では,全時間点雲のシーンフローとインスタンスセグメンテーションを同時に予測するマルチタスクフレームワークを提案する。 1)静的な背景と動的オブジェクトの最初の粗いセグメンテーションを用いて、共有特徴処理モジュールを介して動きと意味情報を精製するためのコンテキスト情報を提供するマルチタスクスキームの開発,2)シーンフロー推定とインスタンスセグメンテーションの性能を高めるための損失関数セットの開発,そして,交通シーン内の静的および動的オブジェクトの空間的および時間的一貫性を確保することを支援すること,3)粗い学習スキームの開発。
論文参考訳（メタデータ） (2025-03-19T02:43:19Z)
InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-28T16:08:36Z)
S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving [12.406655155106424]
そこで本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
論文参考訳（メタデータ） (2024-10-30T15:00:06Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文参考訳（メタデータ） (2024-04-10T08:54:43Z)
N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2024-03-16T18:50:44Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文参考訳（メタデータ） (2023-05-22T03:04:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。