論文の概要: Bridging the Modality Gap in Roadside LiDAR: A Training-Free Vision-Language Model Framework for Vehicle Classification
- arxiv url: http://arxiv.org/abs/2602.09425v1
- Date: Tue, 10 Feb 2026 05:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.38743
- Title: Bridging the Modality Gap in Roadside LiDAR: A Training-Free Vision-Language Model Framework for Vehicle Classification
- Title(参考訳): ロードサイドLiDARにおけるモダリティギャップのブリッジ:車両分類のためのトレーニングフリービジョンランゲージモデルフレームワーク
- Authors: Yiqiao Li, Bo Shang, Jie Wei,
- Abstract要約: インテリジェントトランスポートシステム(ITS)におけるきめ細かいトラックの分類
現在のLiDARベースの手法は、教師付きディープラーニングと労働集約型マニュアルアノテーションに依存しているため、スケーラビリティの課題に直面している。
パラメータの微調整を伴わないきめ細かいトラック分類のために,市販のビジョンランゲージモデルを適用することで,このギャップを埋めるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.746505534720594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained truck classification is critical for intelligent transportation systems (ITS), yet current LiDAR-based methods face scalability challenges due to their reliance on supervised deep learning and labor-intensive manual annotation. Vision-Language Models (VLMs) offer promising few-shot generalization, but their application to roadside LiDAR is limited by a modality gap between sparse 3D point clouds and dense 2D imagery. We propose a framework that bridges this gap by adapting off-the-shelf VLMs for fine-grained truck classification without parameter fine-tuning. Our new depth-aware image generation pipeline applies noise removal, spatial and temporal registration, orientation rectification, morphological operations, and anisotropic smoothing to transform sparse, occluded LiDAR scans into depth-encoded 2D visual proxies. Validated on a real-world dataset of 20 vehicle classes, our approach achieves competitive classification accuracy with as few as 16-30 examples per class, offering a scalable alternative to data-intensive supervised baselines. We further observe a "Semantic Anchor" effect: text-based guidance regularizes performance in ultra-low-shot regimes $k < 4$, but degrades accuracy in more-shot settings due to semantic mismatch. Furthermore, we demonstrate the efficacy of this framework as a Cold Start strategy, using VLM-generated labels to bootstrap lightweight supervised models. Notably, the few-shot VLM-based model achieves over correct classification rate of 75 percent for specific drayage categories (20ft, 40ft, and 53ft containers) entirely without the costly training or fine-tuning, significantly reducing the intensive demands of initial manual labeling, thus achieving a method of practical use in ITS applications.
- Abstract(参考訳): しかし、現在のLiDARベースの手法は、教師付き深層学習と労働集約的なマニュアルアノテーションに依存するため、スケーラビリティの課題に直面している。
Vision-Language Models (VLM) は、望ましくない数ショットの一般化を提供するが、道路脇のLiDARへの応用は、スパース3D点雲と高密度2D画像の間のモダリティギャップによって制限される。
パラメータの微調整を伴わずにトラックのきめ細かな分類に市販のVLMを適用することにより,このギャップを埋めるフレームワークを提案する。
我々の新しい深度認識画像生成パイプラインは、ノイズ除去、空間的および時間的登録、方向修正、形態的操作、異方的平滑化を適用して、スパースで隠蔽されたLiDARスキャンを深度符号化された2次元視覚プロキシに変換する。
20の車種からなる実世界のデータセットに基づいて検証し,クラス毎の16~30のサンプルで,競合する分類精度を達成し,データ集約型ベースラインのスケーラブルな代替手段を提供する。
さらに「セマンティックアンカー」効果が観察される: テキストベースのガイダンスは、ウルトラローショットレシエーションにおいて、$k < 4$でパフォーマンスを正規化するが、セマンティックミスマッチにより、よりショットの多い設定では精度が低下する。
さらに,本フレームワークのコールドスタート戦略として,VLM生成ラベルを用いた軽量教師付きモデルのブートストラップの有効性を示す。
特に、VLMベースのモデルでは、特定のドレージカテゴリ(20ft、40ft、53ftコンテナ)に対して、コストのかかるトレーニングや微調整を全く行わずに75%以上の正確な分類率を実現し、初期手動ラベリングの集中的な要求を著しく低減し、ITSアプリケーションで実用的な方法を実現する。
関連論文リスト
- Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels [28.96799571666756]
雑音ラベル(DGLSS-NL)に基づくLiDARのための新しいタスク領域一般化について紹介する。
既存の雑音ラベル学習アプローチは,LiDARデータに適合しないことがわかった。
特徴レベルの一貫性を強制し、予測の信頼度を考慮したフィルタリングに基づくクロスエントロピー損失を適用した、強い分岐と弱い分岐を持つデュアルビューフレームワークであるDuNeを提案する。
論文 参考訳(メタデータ) (2025-10-10T06:11:34Z) - When marine radar target detection meets pretrained large language models [19.91452033424555]
機能前処理を大規模言語モデル(LLM)と統合するフレームワークを提案する。
我々の前処理モジュールは、レーダシーケンスの特徴をトークン化し、不定形セグメントをフィルタリングするためにパッチ選択アルゴリズムを適用し、選択したパッチを事前訓練されたLLMの特徴空間と互換性のある埋め込みに投影する。
実験により,提案手法は教師あり学習試験における最先端のベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-09-15T16:38:13Z) - Finetuning Pre-trained Model with Limited Data for LiDAR-based 3D Object Detection by Bridging Domain Gaps [8.897884780881535]
LiDARベースの3Dオブジェクト検出器は、センサーの設定が異なるターゲットドメインにうまく適応できないことが多い。
近年の研究では、トレーニング済みのバックボーンは大規模でラベルのないLiDARフレームで自己管理的に学習できることが示唆されている。
本研究では,対象データに制限のある事前学習モデルを適用するために,DADT(Domain Adaptive Distill-Tuning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T08:22:42Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。