論文の概要: SamLP: A Customized Segment Anything Model for License Plate Detection
- arxiv url: http://arxiv.org/abs/2401.06374v1
- Date: Fri, 12 Jan 2024 04:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:35:15.463667
- Title: SamLP: A Customized Segment Anything Model for License Plate Detection
- Title(参考訳): samlp: ライセンスプレート検出のためのsegment anythingモデル
- Authors: Haoxuan Ding, Junyu Gao, Yuan Yuan, Qi Wang
- Abstract要約: 本稿では,視覚基盤モデルに基づく最初のナンバープレート検出器SamLPを提案する。
実験の結果,SamLPは他のLP検出器と比較して有望な検出性能が得られた。
提案するSamLPは,視覚基盤モデルへの移行の可能性を示す,極めて少ないショットとゼロショットの学習能力を有する。
- 参考スコア(独自算出の注目度): 26.702754553244585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of foundation model, this novel paradigm of deep learning
has encouraged many powerful achievements in natural language processing and
computer vision. There are many advantages of foundation model, such as
excellent feature extraction power, mighty generalization ability, great
few-shot and zero-shot learning capacity, etc. which are beneficial to vision
tasks. As the unique identity of vehicle, different countries and regions have
diverse license plate (LP) styles and appearances, and even different types of
vehicles have different LPs. However, recent deep learning based license plate
detectors are mainly trained on specific datasets, and these limited datasets
constrain the effectiveness and robustness of LP detectors. To alleviate the
negative impact of limited data, an attempt to exploit the advantages of
foundation model is implement in this paper. We customize a vision foundation
model, i.e. Segment Anything Model (SAM), for LP detection task and propose the
first LP detector based on vision foundation model, named SamLP. Specifically,
we design a Low-Rank Adaptation (LoRA) fine-tuning strategy to inject extra
parameters into SAM and transfer SAM into LP detection task. And then, we
further propose a promptable fine-tuning step to provide SamLP with prompatable
segmentation capacity. The experiments show that our proposed SamLP achieves
promising detection performance compared to other LP detectors. Meanwhile, the
proposed SamLP has great few-shot and zero-shot learning ability, which shows
the potential of transferring vision foundation model. The code is available at
https://github.com/Dinghaoxuan/SamLP
- Abstract(参考訳): 基礎モデルの出現に伴い、このディープラーニングの新しいパラダイムは、自然言語処理とコンピュータビジョンにおける多くの強力な成果を後押ししてきた。
ファンデーションモデルには、優れた機能抽出能力、強力な一般化能力、優れた少数ショット学習能力、ゼロショット学習能力など、視覚タスクに有用な多くの利点がある。
車両の独特なアイデンティティとして、異なる国や地域は異なるライセンスプレート(LP)スタイルと外観を持ち、異なる種類の車両でさえ異なるLPを持っている。
しかし、最近のディープラーニングベースのライセンスプレート検出器は、主に特定のデータセットに基づいて訓練されており、これらの制限されたデータセットはLP検出器の有効性と堅牢性を制限する。
制限データによる負の影響を軽減するため,本論文では基礎モデルの利点を活用する試みを行っている。
lp検出タスクのための視覚基盤モデルであるsegment anything model(sam)をカスタマイズし,視覚基盤モデルに基づく最初のlp検出器であるsamlpを提案する。
具体的には,Low-Rank Adaptation (LoRA)ファインチューニング戦略を設計し,SAMに余分なパラメータを注入し,SAMをLP検出タスクに転送する。
さらに,SamLPにセグメンテーション能力を持たせるために,高速化可能な微調整手順を提案する。
実験の結果,SamLPは他のLP検出器と比較して有望な検出性能が得られた。
一方,提案するSamLPは,視覚基盤モデルへの移行の可能性を示す,少数ショットとゼロショットの学習能力を有する。
コードはhttps://github.com/Dinghaoxuan/SamLPで公開されている。
関連論文リスト
- Segment-Anything Models Achieve Zero-shot Robustness in Autonomous Driving [4.609947459514934]
ここ数年、ディープラーニングは、畳み込みニューラルネットワーク(CNN)モデルから、膨大なパラメータを持つ基礎モデルへと徐々に移行してきた。
SAM( segment-anything model)は、様々な種類の画像を扱うことができ、特定のオブジェクトをトレーニングすることなく、画像内の任意のオブジェクトを認識し、セグメント化することができる。
実験結果から,ブラックボックスの破損やホワイトボックスの攻撃によるSAMのゼロショット対逆ロバスト性は,追加訓練を必要とせずとも許容できることがわかった。
論文 参考訳(メタデータ) (2024-08-19T09:35:51Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - Better Call SAL: Towards Learning to Segment Anything in Lidar [63.9984147657437]
本稿では,Lidar内の任意のオブジェクトをセグメント化,分類するためのテキストプロンプト可能なゼロショットモデルを提案する。
擬似ラベルを用いて2次元視覚基盤モデルを用いて3次元の3次元監督を無償で生成する。
我々のモデルは、クラスに依存しない点では91%、ゼロショットのLidar Panopticonでは54%である。
論文 参考訳(メタデータ) (2024-03-19T19:58:54Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - Watermarking Vision-Language Pre-trained Models for Multi-modal
Embedding as a Service [19.916419258812077]
マーカと呼ばれる言語に対して,ロバストな埋め込み型透かし手法を提案する。
そこで本研究では,バックドアトリガと組込み分布の両方に基づく共同著作権検証戦略を提案する。
論文 参考訳(メタデータ) (2023-11-10T04:27:27Z) - MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。
私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。
近年のAL法と比較すると,最先端の結果が得られている。
論文 参考訳(メタデータ) (2023-01-04T10:52:02Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。