論文の概要: Next-Generation Parallel Decoder for LPDR: Architectural Optimization and Class-Balanced GAN-Augmentation
- arxiv url: http://arxiv.org/abs/2606.05785v1
- Date: Thu, 04 Jun 2026 07:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.615428
- Title: Next-Generation Parallel Decoder for LPDR: Architectural Optimization and Class-Balanced GAN-Augmentation
- Title(参考訳): LPDR用次世代並列デコーダ:アーキテクチャ最適化とクラスベースGAN拡張
- Authors: Shawaiz Obaid, Nida Chandio, Neha Jamil, Muhammad Khuram Shahzad,
- Abstract要約: 本稿では,CSHAとCBSA(Class-Balanced Synthetic Augmentation)について紹介する。
実験の結果、少数州のナンバープレートの認識率は78.2%から91.5%に大幅に改善した。
その結果, 空間認識型並列復号法とクラスバランス強化法を併用することにより, 高速プレート認識システムに有効な解法が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-Time License Plate Detection and Recognition (LPDR) forms the backbone of modern smart cities. Although the YOLOV5-PDLPR model substantially improved system efficiency through a parallel decoder approach, its performance is still affected by spatial character mismatches and data imbalance within the training set. This paper addresses these limitations by introducing Cross-Spatial Hybrid Attention (CSHA) and Class-Balanced Synthetic Augmentation (CBSA). An extensive study involving 75,000 synthetic samples is conducted and evaluated on four benchmarks: CCPD, CLPD, PKU, and an application-specific dataset. Experimental results demonstrate a substantial improvement in the recognition rate of minority provincial license plates from 78.2% to 91.5% while maintaining real-time processing performance of 152 FPS. The results indicate that spatially-aware parallel decoding combined with class-balanced augmentation provides an effective solution for high-speed license plate recognition systems.
- Abstract(参考訳): リアルタイムプレート検出・認識(LPDR)は、現代のスマートシティのバックボーンを形成する。
YOLOV5-PDLPRモデルは並列デコーダアプローチによりシステム効率を大幅に改善するが、その性能はトレーニングセット内の空間的文字ミスマッチやデータ不均衡の影響を受けない。
本稿では,CSHA(Cross-Spatial Hybrid Attention)とCBSA(Class-Balanced Synthetic Augmentation)を導入することで,これらの制約に対処する。
CCPD, CLPD, PKU, アプリケーション固有のデータセットの4つのベンチマークで, 75,000の合成サンプルに関する広範な研究を行い, 評価を行った。
実験の結果, マイノリティナンバープレートの認識率は78.2%から91.5%に向上し, リアルタイム処理性能は152 FPSに向上した。
その結果, 空間認識型並列復号法とクラスバランス強化法を併用することにより, 高速プレート認識システムに有効な解法が得られた。
関連論文リスト
- LSP-YOLO: A Lightweight Single-Stage Network for Sitting Posture Recognition on Embedded Devices [1.476945306033059]
LSP-YOLOは、組み込みエッジデバイス上での姿勢認識のための軽量なシングルステージネットワークである。
モデルトレーニングとテストのために、6つの姿勢カテゴリにわたる5000の画像を含むデータセットを構築した。
最小のトレーニングモデルであるLSP-YOLO-nは、わずか1.9MBのパーソナルコンピュータ(PC)で94.2%の精度と251FPSを達成した。
論文 参考訳(メタデータ) (2025-11-18T10:24:51Z) - Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging [55.62977326180104]
前立腺癌病変の分節化に対する近年の深層学習アプローチは,限られた性能を達成している。
本稿では,標準拡散型プロトコルの拡張として,合成相関拡散イメージング(CDI$s$)について検討する。
以上の結果から,PCa病変セグメント化タスクの実践的ドロップイン強化として,CDI$s$に対する検証済み統合経路が確立された。
論文 参考訳(メタデータ) (2025-11-11T04:16:12Z) - PECL: A Heterogeneous Parallel Multi-Domain Network for Radar-Based Human Activity Recognition [4.637823044029562]
本研究では3つの補完領域(Range-Time, Doppler-Time, Range-Doppler)でデータを処理するネットワークを設計する。
実験の結果、PECLは同じデータセットで96.16%の精度を達成し、既存の手法を少なくとも4.78%上回った。
その性能にもかかわらず、PECLは23.42Mパラメータと1324.82M FLOPを持つ中程度のモデルの複雑さを維持している。
論文 参考訳(メタデータ) (2025-11-07T07:22:36Z) - DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - A New Hybrid Model of Generative Adversarial Network and You Only Look Once Algorithm for Automatic License-Plate Recognition [1.6566053195631465]
本稿では,前処理ステップにおけるデブロリングのためのGAN(Generative Adversarial Network)を提案する。
YOLOv5は、ライセンスプレート検出(LPD)と文字認識(CR)の両方で0.026秒の検知時間を達成する。
提案モデルでは, LPD と CR をそれぞれ95%, 97% の精度で検出する。
論文 参考訳(メタデータ) (2025-09-08T16:34:54Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Neonatal seizure detection from raw multi-channel EEG using a fully
convolutional architecture [1.8352113484137622]
このアーキテクチャは、従来の機械学習ベースのソリューションで使われている最先端の手作業による特徴に基づく表現とは対照的に、生脳波(EEG)信号からの発作イベントを検出するように設計されている。
提案したアーキテクチャは、新生児脳波にディープラーニングを適用するための新たな道を開き、正確な臨床ラベルの入手に頼らずに、トレーニングデータの量の関数としての性能が向上する。
論文 参考訳(メタデータ) (2021-05-28T14:08:36Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。