論文の概要: Concept-based Explainable Data Mining with VLM for 3D Detection
- arxiv url: http://arxiv.org/abs/2512.05482v1
- Date: Fri, 05 Dec 2025 07:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.933922
- Title: Concept-based Explainable Data Mining with VLM for 3D Detection
- Title(参考訳): 3次元検出のためのVLMを用いた概念ベース説明可能なデータマイニング
- Authors: Mai Tsujimoto,
- Abstract要約: 本稿では、2次元視覚言語モデルを利用して、運転シーンからレアな物体を識別・マイニングする新しいクロスモーダルフレームワークを提案する。
提案手法は,オブジェクト検出,意味的特徴抽出,次元減少,多面外乱検出などの相補的手法を合成する。
nuScenesデータセットの実験では、この概念に基づくデータマイニング戦略により、3Dオブジェクト検出モデルの性能が向上することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rare-object detection remains a challenging task in autonomous driving systems, particularly when relying solely on point cloud data. Although Vision-Language Models (VLMs) exhibit strong capabilities in image understanding, their potential to enhance 3D object detection through intelligent data mining has not been fully explored. This paper proposes a novel cross-modal framework that leverages 2D VLMs to identify and mine rare objects from driving scenes, thereby improving 3D object detection performance. Our approach synthesizes complementary techniques such as object detection, semantic feature extraction, dimensionality reduction, and multi-faceted outlier detection into a cohesive, explainable pipeline that systematically identifies rare but critical objects in driving scenes. By combining Isolation Forest and t-SNE-based outlier detection methods with concept-based filtering, the framework effectively identifies semantically meaningful rare objects. A key strength of this approach lies in its ability to extract and annotate targeted rare object concepts such as construction vehicles, motorcycles, and barriers. This substantially reduces the annotation burden and focuses only on the most valuable training samples. Experiments on the nuScenes dataset demonstrate that this concept-guided data mining strategy enhances the performance of 3D object detection models while utilizing only a fraction of the training data, with particularly notable improvements for challenging object categories such as trailers and bicycles compared with the same amount of random data. This finding has substantial implications for the efficient curation of datasets in safety-critical autonomous systems.
- Abstract(参考訳): 希少物体検出は、特にポイントクラウドデータのみに依存する場合、自律運転システムにおいて依然として困難な課題である。
Vision-Language Models (VLM) は画像理解において強力な能力を発揮するが、インテリジェントなデータマイニングによる3Dオブジェクトの検出能力は十分に研究されていない。
本稿では,2次元VLMを利用して走行シーンからレアオブジェクトを識別・マイニングするクロスモーダルフレームワークを提案する。
本手法は, 物体検出, 意味的特徴抽出, 次元減少, 多面外乱検出などの補完的手法を, 駆動シーンにおける稀だが重要な物体を体系的に同定する, 凝集性, 説明可能なパイプラインに合成する。
アイソレーションフォレストとt-SNEに基づく外れ値検出手法と概念に基づくフィルタリングを組み合わせることで,意味的に意味のあるレアオブジェクトを効果的に識別する。
このアプローチの重要な強みは、建設車両、オートバイ、バリアといった標的となるまれな概念を抽出し、注釈を付ける能力にある。
これにより、アノテーションの負担を大幅に減らし、最も価値のあるトレーニングサンプルのみに焦点を当てる。
nuScenesデータセットの実験では、この概念に基づくデータマイニング戦略により、トレーニングデータのごく一部しか利用せずに、3Dオブジェクト検出モデルの性能が向上することが示された。
この発見は、安全クリティカルな自律システムにおけるデータセットの効率的なキュレーションに重要な意味を持つ。
関連論文リスト
- HD-OOD3D: Supervised and Unsupervised Out-of-Distribution object detection in LiDAR data [6.372261626436676]
HD-OOD3Dは未知の物体を検出するための新しい2段階法である。
未知の物体を学習する際の課題を解決するために,未知の物体に対して擬似ラベルを生成するための教師なしの訓練戦略を検討する。
論文 参考訳(メタデータ) (2024-10-31T09:29:55Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - LS-VOS: Identifying Outliers in 3D Object Detections Using Latent Space
Virtual Outlier Synthesis [10.920640666237833]
LiDARベースの3Dオブジェクト検出器は、自動運転アプリケーションにおいて前例のないスピードと精度を達成した。
それらはしばしば、信頼度の高い予測や、実際のオブジェクトが存在しないリターン検出に偏っている。
LS-VOSは,3次元物体検出における外れ値の同定を行うフレームワークである。
論文 参考訳(メタデータ) (2023-10-02T07:44:26Z) - PatchContrast: Self-Supervised Pre-training for 3D Object Detection [14.493213289990962]
PatchContrastは、3Dオブジェクト検出のための新しい自己教師付きポイントクラウド事前学習フレームワークである。
提案手法は,3つの一般的な3次元検出データセットにおいて,既存の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-14T07:45:54Z) - Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for
Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。
具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。
この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T07:11:36Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。