論文の概要: DC-Scene: Data-Centric Learning for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2505.15232v1
- Date: Wed, 21 May 2025 08:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.214021
- Title: DC-Scene: Data-Centric Learning for 3D Scene Understanding
- Title(参考訳): DC-Scene:3次元シーン理解のためのデータ中心学習
- Authors: Ting Huang, Zeyu Zhang, Ruicheng Zhang, Yang Zhao,
- Abstract要約: 3Dシーン理解は、ロボット工学、自律運転、拡張現実といったビジョン応用において、基本的な役割を担っている。
本稿では,3次元シーン理解に適したデータ中心型フレームワークDC-Sceneを提案する。
本稿では,CLIP-driven dual-indicator Quality (DIQ) フィルタを導入し,視覚言語アライメントスコアとキャプションロスパープレキシティを組み合わせたカリキュラムスケジューラを提案する。
- 参考スコア(独自算出の注目度): 11.204526527127094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D scene understanding plays a fundamental role in vision applications such as robotics, autonomous driving, and augmented reality. However, advancing learning-based 3D scene understanding remains challenging due to two key limitations: (1) the large scale and complexity of 3D scenes lead to higher computational costs and slower training compared to 2D counterparts; and (2) high-quality annotated 3D datasets are significantly scarcer than those available for 2D vision. These challenges underscore the need for more efficient learning paradigms. In this work, we propose DC-Scene, a data-centric framework tailored for 3D scene understanding, which emphasizes enhancing data quality and training efficiency. Specifically, we introduce a CLIP-driven dual-indicator quality (DIQ) filter, combining vision-language alignment scores with caption-loss perplexity, along with a curriculum scheduler that progressively expands the training pool from the top 25% to 75% of scene-caption pairs. This strategy filters out noisy samples and significantly reduces dependence on large-scale labeled 3D data. Extensive experiments on ScanRefer and Nr3D demonstrate that DC-Scene achieves state-of-the-art performance (86.1 CIDEr with the top-75% subset vs. 85.4 with the full dataset) while reducing training cost by approximately two-thirds, confirming that a compact set of high-quality samples can outperform exhaustive training. Code will be available at https://github.com/AIGeeksGroup/DC-Scene.
- Abstract(参考訳): 3Dシーン理解は、ロボット工学、自律運転、拡張現実といったビジョン応用において、基本的な役割を担っている。
しかし,学習に基づく3次元シーン理解の進展は,(1)3次元シーンの大規模化と複雑化により,計算コストが向上し,2次元シーンに比べて訓練が遅いこと,(2)高品質な注釈付き3次元データセットが2次元ビジョンで利用できるものよりもはるかに少ないこと,の2つの重要な制約により,依然として困難である。
これらの課題は、より効率的な学習パラダイムの必要性を浮き彫りにする。
本研究では,3次元シーン理解に適したデータ中心型フレームワークDC-Sceneを提案する。
具体的には、視覚言語アライメントスコアとキャプションロスパープレキシティを組み合わせたCLIP駆動型デュアルインジケータ品質(DIQ)フィルタと、トレーニングプールを上位25%から75%まで段階的に拡張するカリキュラムスケジューラを導入する。
この戦略は、ノイズの多いサンプルをフィルタリングし、大規模ラベル付き3Dデータへの依存を著しく低減する。
ScanRefer と Nr3D に関する大規模な実験により、DC-Scene は最先端の性能(86.1 CIDEr と、データセットの最大75% のサブセット 85.4 )を達成し、トレーニングコストを約3分の2削減し、高品質なサンプルセットのコンパクト化が徹底的なトレーニングより優れていることを確認した。
コードはhttps://github.com/AIGeeksGroup/DC-Scene.comから入手できる。
関連論文リスト
- SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining [100.23919762298227]
SceneSplatは,3DGS上で動作する最初の大規模屋内シーン理解手法である。
また,ラベルのないシーンからリッチな3D特徴学習を解放する自己教師型学習手法を提案する。
SceneSplat-7Kは、6868シーンからなる屋内シーンのための最初の大規模3DGSデータセットである。
論文 参考訳(メタデータ) (2025-03-23T12:50:25Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - P3P: Pseudo-3D Pre-training for Scaling 3D Voxel-based Masked Autoencoders [34.64343313442465]
本稿では,数百万の画像を3次元事前学習コーパスに組み込んだ,自己教師型事前学習フレームワークを提案する。
本手法は,3次元分類,少数ショット学習,および3次元分割における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T13:59:53Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors [1.0973642726108543]
本稿では,新しいマルチモーダル3DディープCNNであるSPAwNを紹介する。
この分野で重要な課題は、完全にラベル付けされた現実世界の3Dデータセットがないことである。
本稿では,マルチモーダルSCネットワークに適用可能な3次元データ拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-11-26T04:08:34Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - 2.75D: Boosting learning by representing 3D Medical imaging to 2D
features for small data [54.223614679807994]
3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れたパフォーマンスを示し始めている。
3D CNNにトランスファー学習を適用することは、パブリックにトレーニング済みの3Dモデルがないために困難である。
本研究では,ボリュームデータの2次元戦略的表現,すなわち2.75Dを提案する。
その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
論文 参考訳(メタデータ) (2020-02-11T08:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。