論文の概要: VFM-Det: Towards High-Performance Vehicle Detection via Large Foundation Models
- arxiv url: http://arxiv.org/abs/2408.13031v1
- Date: Fri, 23 Aug 2024 12:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:10:31.015597
- Title: VFM-Det: Towards High-Performance Vehicle Detection via Large Foundation Models
- Title(参考訳): VFM-Det:大規模ファンデーションモデルによる高性能車両検出に向けて
- Authors: Wentao Wu, Fanghua Hong, Xiao Wang, Chenglong Li, Jin Tang,
- Abstract要約: 本稿では,VFM-Detと呼ばれる,事前訓練された基礎車両モデル(VehicleMAE)と大規模言語モデル(T5)に基づく新しい車両検出パラダイムを提案する。
我々のモデルは、それぞれ$AP_0.5$と$AP_0.75$で、ベースラインアプローチを$+5.1%$、$+6.2%$で改善する。
- 参考スコア(独自算出の注目度): 21.186456742407007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vehicle detectors are usually obtained by training a typical detector (e.g., YOLO, RCNN, DETR series) on vehicle images based on a pre-trained backbone (e.g., ResNet, ViT). Some researchers also exploit and enhance the detection performance using pre-trained large foundation models. However, we think these detectors may only get sub-optimal results because the large models they use are not specifically designed for vehicles. In addition, their results heavily rely on visual features, and seldom of they consider the alignment between the vehicle's semantic information and visual representations. In this work, we propose a new vehicle detection paradigm based on a pre-trained foundation vehicle model (VehicleMAE) and a large language model (T5), termed VFM-Det. It follows the region proposal-based detection framework and the features of each proposal can be enhanced using VehicleMAE. More importantly, we propose a new VAtt2Vec module that predicts the vehicle semantic attributes of these proposals and transforms them into feature vectors to enhance the vision features via contrastive learning. Extensive experiments on three vehicle detection benchmark datasets thoroughly proved the effectiveness of our vehicle detector. Specifically, our model improves the baseline approach by $+5.1\%$, $+6.2\%$ on the $AP_{0.5}$, $AP_{0.75}$ metrics, respectively, on the Cityscapes dataset.The source code of this work will be released at https://github.com/Event-AHU/VFM-Det.
- Abstract(参考訳): 既存の車両検出器は、通常、訓練済みのバックボーン(例えば、ResNet、ViT)に基づいて車両画像上の典型的な検出器(例えば、YOLO、RCNN、DETRシリーズ)を訓練することで得られる。
一部の研究者は、事前訓練された大きな基礎モデルを使用して検出性能を活用、強化している。
しかし、これらの検出器は、彼らが使用する大型モデルは特に車両用に設計されていないため、最適以下の結果しか得られないと考えている。
さらに、それらの結果は視覚的特徴に大きく依存しており、車両のセマンティック情報と視覚的表現との整合性を考えることはめったにない。
本研究では,VFM-Detと呼ばれる,事前訓練された基礎車両モデル(VehicleMAE)と大規模言語モデル(T5)に基づく新しい車両検出パラダイムを提案する。
リージョン提案に基づく検出フレームワークに従っており、各提案の特徴をVagerMAEを使って拡張することができる。
さらに重要なことは、これらの提案の車両の意味的属性を予測し、特徴ベクトルに変換して、対照的な学習を通じて視覚機能を強化する、新しいVAtt2Vecモジュールを提案することである。
3つの車両検出ベンチマークデータセットの大規模な実験は、当社の車両検出装置の有効性を徹底的に証明した。
具体的には、ベースラインアプローチを$+5.1\%$、$+6.2\%$、$AP_{0.5}$、$AP_{0.75}$のメトリクスで改善しています。
関連論文リスト
- Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models [47.18069715855738]
近年のビジョン基礎モデルでは、普遍的な表現を抽出し、様々なタスクにおいて印象的な能力を示すことができる。
凍結基礎モデルは, 物体検出のための事前訓練を受けなくても, 汎用的特徴増強器として利用できることを示す。
論文 参考訳(メタデータ) (2024-10-25T15:38:24Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Structural Information Guided Multimodal Pre-training for
Vehicle-centric Perception [36.92036421490819]
そこで我々は,VagerMAEと呼ばれる新しい車両中心の事前学習フレームワークを提案する。
車両のスケッチラインを空間構造の形式として明示的に抽出し,車両の再建を誘導する。
大規模なデータセットは、約100万の車両画像と12693のテキスト情報を含むAutobot1Mと呼ばれるモデルを事前訓練するために構築されている。
論文 参考訳(メタデータ) (2023-12-15T14:10:21Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Blind-Spot Collision Detection System for Commercial Vehicles Using
Multi Deep CNN Architecture [0.17499351967216337]
高レベル特徴記述子に基づく2つの畳み込みニューラルネットワーク(CNN)は、重車両の盲点衝突を検出するために提案される。
盲点車両検出のための高次特徴抽出のための2つの事前学習ネットワークを統合するために,融合手法を提案する。
機能の融合により、より高速なR-CNNの性能が大幅に向上し、既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-17T11:10:37Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - What My Motion tells me about Your Pose: A Self-Supervised Monocular 3D
Vehicle Detector [41.12124329933595]
参照領域上で事前学習した方向推定モデルにおいて,単眼視計測を用いた自己教師型微調整を行った。
その後、自己監督車両配向推定器上に構築された最適化に基づく単分子式3次元境界箱検出器を実演した。
論文 参考訳(メタデータ) (2020-07-29T12:58:40Z) - Vehicle Detection of Multi-source Remote Sensing Data Using Active
Fine-tuning Network [26.08837467340853]
提案するMs-AFtフレームワークは,移動学習,セグメンテーション,アクティブな分類を,自動ラベリングと検出のための統合されたフレームワークに統合する。
提案したMs-AFtは、未ラベルのデータセットから車両のトレーニングセットを最初に生成するために、微調整ネットワークを使用している。
2つのオープンISPRSベンチマークデータセットで実施された大規模な実験結果は、車両検出のための提案されたMs-AFtの優位性と有効性を示している。
論文 参考訳(メタデータ) (2020-07-16T17:46:46Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。