論文の概要: SemLT3D: Semantic-Guided Expert Distillation for Camera-only Long-Tailed 3D Object Detection
- arxiv url: http://arxiv.org/abs/2604.18476v1
- Date: Mon, 20 Apr 2026 16:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.994071
- Title: SemLT3D: Semantic-Guided Expert Distillation for Camera-only Long-Tailed 3D Object Detection
- Title(参考訳): SemLT3D:Semantic-Guided Expert Distillation for camera-only Long-Tailed 3D Object Detection
- Authors: Hao Vo, Khoa Vo, Thinh Phan, Ngo Xuan Cuong, Gianfranco Doretto, Hien Nguyen, Anh Nguyen, Ngan Le,
- Abstract要約: カメラのみの3Dオブジェクト検出は、自動運転のためのLiDARに代わる費用効率が高くスケーラブルな代替品として登場した。
実際には、子供、ベビーカー、救急車など、まれだが安全に重要な多くのカテゴリーが不足している。
本稿では,セマンティックガイド付きエキスパート蒸留フレームワークSemLT3Dについて紹介する。
- 参考スコア(独自算出の注目度): 14.96234618252065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-only 3D object detection has emerged as a cost-effective and scalable alternative to LiDAR for autonomous driving, yet existing methods primarily prioritize overall performance while overlooking the severe long-tail imbalance inherent in real-world datasets. In practice, many rare but safety-critical categories such as children, strollers, or emergency vehicles are heavily underrepresented, leading to biased learning and degraded performance. This challenge is further exacerbated by pronounced inter-class ambiguity (e.g., visually similar subclasses) and substantial intra-class diversity (e.g., objects varying widely in appearance, scale, pose, or context), which together hinder reliable long-tail recognition. In this work, we introduce SemLT3D, a Semantic-Guided Expert Distillation framework designed to enrich the representation space for underrepresented classes through semantic priors. SemLT3D consists of: (1) a language-guided mixture-of-experts module that routes 3D queries to specialized experts according to their semantic affinity, enabling the model to better disentangle confusing classes and specialize on tail distributions; and (2) a semantic projection distillation pipeline that aligns 3D queries with CLIP-informed 2D semantics, producing more coherent and discriminative features across diverse visual manifestations. Although motivated by long-tail imbalance, the semantically structured learning in SemLT3D also improves robustness under broader appearance variations and challenging corner cases, offering a principled step toward more reliable camera-only 3D perception.
- Abstract(参考訳): カメラのみの3Dオブジェクト検出は、自動運転のためのLiDARに代わるコスト効率が高くスケーラブルな代替手段として登場した。
実際には、子供、ベビーカー、救急車といった、まれだが安全に重要なカテゴリーの多くは、あまり表現されていないため、バイアスのある学習や性能低下につながっている。
この課題は、クラス間のあいまいさ(例えば、視覚的に類似したサブクラス)と、実質的なクラス内多様性(例えば、外観、スケール、ポーズ、文脈において広く変化するオブジェクト)によってさらに悪化し、信頼性の高いロングテール認識を妨げている。
本稿では,セマンティックガイド付きエキスパート蒸留フレームワークであるSemLT3Dを紹介する。
SemLT3D は,(1) 3D クエリを専門の専門家にセマンティック親和性に応じてルーティングする言語誘導ミックス・オブ・エキスパートモジュール,2) CLIP インフォームド2D セマンティクスと 3D クエリをアライメントするセマンティック・プロジェクション・蒸留パイプライン,などから構成される。
SemLT3Dのセマンティックな構造化学習は、長い尾の不均衡によって動機付けられているが、より広い外観のバリエーションと挑戦的なコーナーケースの下で堅牢性を改善し、より信頼性の高いカメラのみの3D知覚に向けた原則的なステップを提供する。
関連論文リスト
- Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - Semantic Causality-Aware Vision-Based 3D Occupancy Prediction [63.752869043357585]
視覚に基づく3Dセマンティック占有予測は、3Dビジョンにおいて重要な課題である。
しかし、既存のメソッドは、しばしばモジュラーパイプラインに依存している。
本稿では,モジュール型2D-to-3Dトランスフォーメーションパイプラインの全体的,エンドツーエンドの監視を可能にする新たな因果損失を提案する。
論文 参考訳(メタデータ) (2025-09-10T08:29:22Z) - CleverDistiller: Simple and Spatially Consistent Cross-modal Distillation [7.246959698735599]
CleverDistillerは、自己監督型の2D-to-3D KDフレームワークである。
セマンティックセグメンテーションと3Dオブジェクト検出の両方において、最大10% mIoUで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-12T22:18:29Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - 3D-LFM: Lifting Foundation Model [29.48835001900286]
ディープラーニングは、幅広いオブジェクトクラスを再構築する能力を拡大しました。
提案手法は, 3次元データインスタンス毎に異なる数点を管理するために, 固有置換同値変換器を利用する。
本稿では,2D-3Dリフトタスクベンチマークにおけるアートパフォーマンスについて述べる。
論文 参考訳(メタデータ) (2023-12-19T06:38:18Z) - Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection [66.74183705987276]
本稿では, 見習いにやさしいマルチモーダル専門家と時間融合にやさしい蒸留監督を含む,カメラオンリーの見習いモデルを改善するための枠組みを提案する。
これらの改善により、我々のカメラオンリーの見習いVCD-Aは、63.1%のNDSスコアでnuScenesに新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2023-10-24T09:29:26Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。