Fugu-MT 論文翻訳(概要): OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding

論文の概要: OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding

arxiv url: http://arxiv.org/abs/2406.02058v1
Date: Tue, 4 Jun 2024 07:42:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 17:30:56.889857
Title: OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding
Title（参考訳）: OpenGaussian: ポイントレベル3Dガウスベースのオープン語彙理解を目指して
Authors: Yanmin Wu, Jiarui Meng, Haijie Li, Chenming Wu, Yahao Shi, Xinhua Cheng, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, Jian Zhang,
Abstract要約: 本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
参考スコア（独自算出の注目度）: 54.981605111365056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces OpenGaussian, a method based on 3D Gaussian Splatting (3DGS) capable of 3D point-level open vocabulary understanding. Our primary motivation stems from observing that existing 3DGS-based open vocabulary methods mainly focus on 2D pixel-level parsing. These methods struggle with 3D point-level tasks due to weak feature expressiveness and inaccurate 2D-3D feature associations. To ensure robust feature presentation and 3D point-level understanding, we first employ SAM masks without cross-frame associations to train instance features with 3D consistency. These features exhibit both intra-object consistency and inter-object distinction. Then, we propose a two-stage codebook to discretize these features from coarse to fine levels. At the coarse level, we consider the positional information of 3D points to achieve location-based clustering, which is then refined at the fine level. Finally, we introduce an instance-level 3D-2D feature association method that links 3D points to 2D masks, which are further associated with 2D CLIP features. Extensive experiments, including open vocabulary-based 3D object selection, 3D point cloud understanding, click-based 3D object selection, and ablation studies, demonstrate the effectiveness of our proposed method. Project page: https://3d-aigc.github.io/OpenGaussian
Abstract（参考訳）: 本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。これらの手法は特徴表現力の弱さと不正確な2D-3D特徴関連のために3次元点レベル課題に対処する。堅牢な特徴提示と3Dポイントレベルの理解を確保するため、私たちはまず、クロスフレームアソシエーションなしでSAMマスクを使用して、3D一貫性のあるインスタンス機能をトレーニングします。これらの特徴は、オブジェクト間の一貫性とオブジェクト間の区別の両方を示す。そこで我々は,これらの特徴を粗いレベルから細かいレベルまで識別する2段階のコードブックを提案する。粗いレベルでは、位置に基づくクラスタリングを実現するために3Dポイントの位置情報を考慮し、細かなレベルで精査する。最後に,3次元点と2次元マスクをリンクするインスタンスレベルの3D-2D特徴関連手法を提案する。オープンな語彙に基づく3Dオブジェクト選択,3Dポイントクラウド理解,クリックベースの3Dオブジェクト選択,アブレーション研究などの大規模な実験により,提案手法の有効性が示された。プロジェクトページ:https://3d-aigc.github.io/OpenGaussian

関連論文リスト

Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings [17.855913571198013]
本稿では,意味論における微分可能レンダリングを完全に回避するパラダイムシフト方式を提案する。私たちの重要な洞察は、事前分解されたオブジェクトレベルのガウスを利用して、マルチビューCLIP機能アグリゲーションを通じて各オブジェクトを表現することです。これにより、(1)テキストクエリをオブジェクトレベル(ガウスレベルではない)の埋め込みと比較することにより、正確なオープン語彙オブジェクトの検索が可能となり、(2)シームレスなタスク適応:2次元セグメンテーションや3次元抽出のためのガウスアンにオブジェクトIDを伝搬する。
論文参考訳（メタデータ） (2025-09-16T10:39:37Z)
GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting [74.56128224977279]
GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。 GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
論文参考訳（メタデータ） (2025-08-19T21:26:49Z)
Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop [0.0]
Webスケールのイメージテキストペアでトレーニングされた2次元視覚言語モデルは、リッチなセマンティック理解を示し、オープン語彙検出をサポートする。我々は,2次元基礎モデルの成熟度とカテゴリの多様性を利用して,人間に注釈を付けた3次元ラベルを使わずに3次元オブジェクト検出を行う。この結果は,スケーラブルな3D知覚のための2次元基礎モデルの未完成の可能性を強調した。
論文参考訳（メタデータ） (2025-07-06T15:00:13Z)
Cues3D: Unleashing the Power of Sole NeRF for Consistent and Unique Instances in Open-Vocabulary 3D Panoptic Segmentation [48.231573110948]
Open-vocabulary 3D panoptic segmentationは、最近重要なトレンドとして現れている。先行連想の代わりにNeural Radiance Field(NeRF)のみに依存するコンパクトなアプローチであるCues3Dを提案する。 ScanNet v2、ScanNet200、ScanNet++、Replicaの3Dインスタンス、パノプティクス、セマンティックセグメンテーションタスクを対象に実験を行った。
論文参考訳（メタデータ） (2025-05-01T08:12:03Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。 FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文参考訳（メタデータ） (2023-12-12T18:57:25Z)
Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文参考訳（メタデータ） (2023-12-01T17:15:24Z)
OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation [32.508069732371105]
OpenIns3Dは、3Dオープン語彙シーン理解のための新しい3D入力専用フレームワークである。様々な3Dオープン語彙タスクで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-09-01T17:59:56Z)
Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文参考訳（メタデータ） (2022-03-25T00:20:31Z)
End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文参考訳（メタデータ） (2021-12-19T17:10:40Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。