論文の概要: Bayesian Fields: Task-driven Open-Set Semantic Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.05949v1
- Date: Fri, 07 Mar 2025 21:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:34.013223
- Title: Bayesian Fields: Task-driven Open-Set Semantic Gaussian Splatting
- Title(参考訳): Bayesian Fields: Task-driven Open-Set Semantic Gaussian Splatting
- Authors: Dominic Maggio, Luca Carlone,
- Abstract要約: オープンセットのセマンティックマッピングでは(i)シーンを表現するために正しい粒度を決定する必要がある。
(II)複数の2次元観察から総合的な3次元再構成へ意味知識を融合させる。
ベイジアン・フィールズ(英: Bayesian Fields)は、オープンセットのセマンティックマッピングのためのタスク駆動の確率論的アプローチである。
- 参考スコア(独自算出の注目度): 19.187033477078177
- License:
- Abstract: Open-set semantic mapping requires (i) determining the correct granularity to represent the scene (e.g., how should objects be defined), and (ii) fusing semantic knowledge across multiple 2D observations into an overall 3D reconstruction -ideally with a high-fidelity yet low-memory footprint. While most related works bypass the first issue by grouping together primitives with similar semantics (according to some manually tuned threshold), we recognize that the object granularity is task-dependent, and develop a task-driven semantic mapping approach. To address the second issue, current practice is to average visual embedding vectors over multiple views. Instead, we show the benefits of using a probabilistic approach based on the properties of the underlying visual-language foundation model, and leveraging Bayesian updating to aggregate multiple observations of the scene. The result is Bayesian Fields, a task-driven and probabilistic approach for open-set semantic mapping. To enable high-fidelity objects and a dense scene representation, Bayesian Fields uses 3D Gaussians which we cluster into task-relevant objects, allowing for both easy 3D object extraction and reduced memory usage. We release Bayesian Fields open-source at https: //github.com/MIT-SPARK/Bayesian-Fields.
- Abstract(参考訳): オープンセットのセマンティックマッピング
(i)シーンを表すための正確な粒度を決定する(例、オブジェクトの定義方法)
(II)複数の2次元観察にまたがる意味知識を総合的な3次元再構成(理想的には高忠実だが低メモリのフットプリント)に融合させる。
ほとんどの関連する作業は、類似したセマンティクスを持つプリミティブをグループ化することで、最初の問題を回避しますが(手動で調整されたしきい値による)、オブジェクトの粒度がタスク依存であることを認識し、タスク駆動のセマンティクスマッピングアプローチを開発します。
2つ目の課題に対処するために、現在のプラクティスは、複数のビューに対する視覚的な埋め込みベクターを平均化することです。
その代わりに、基礎となる視覚言語基盤モデルの特性に基づいて確率論的アプローチを使用することの利点を示し、ベイジアン更新を利用してシーンの複数の観察を集約する。
その結果ベイジアン・フィールズ(Bayesian Fields)は、オープンセットのセマンティックマッピングのためのタスク駆動型確率論的アプローチである。
高忠実度オブジェクトと高密度シーン表現を可能にするため、Bayesian Fieldsは3D Gaussianを使用し、タスク関連オブジェクトにクラスタ化することで、容易に3Dオブジェクト抽出とメモリ使用量の削減を実現している。
https: //github.com/MIT-SPARK/Bayesian-FieldsでBayesian Fieldsをオープンソース化しました。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Task2Box: Box Embeddings for Modeling Asymmetric Task Relationships [19.02802837808466]
ボックス埋め込みを用いたタスク表現手法であるTask2Boxを提案する。
Task2Box は ImageNet と iNaturalist のデータセットのノード間の階層的関係を正確に予測する。
また,タスク表現から推定したボックス埋め込みを,同じ表現で訓練された分類器よりも正確に関係を予測できることを示す。
論文 参考訳(メタデータ) (2024-03-25T20:39:58Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - ImpDet: Exploring Implicit Fields for 3D Object Detection [74.63774221984725]
我々は、境界ボックス回帰を暗黙の関数として見る新しい視点を導入する。
これは、Implicit DetectionまたはImpDetと呼ばれる提案されたフレームワークにつながります。
我々のImpDetは、異なる局所的な3次元空間の点に特定の値を割り当て、高品質な境界を生成することができる。
論文 参考訳(メタデータ) (2022-03-31T17:52:12Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。