論文の概要: Relaxed syntax modeling in Transformers for future-proof license plate recognition
- arxiv url: http://arxiv.org/abs/2506.17051v1
- Date: Fri, 20 Jun 2025 15:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.496056
- Title: Relaxed syntax modeling in Transformers for future-proof license plate recognition
- Title(参考訳): 未来型ナンバープレート認識のためのトランスフォーマーの構文モデル
- Authors: Florent Meyer, Laurent Guichard, Denis Coquenet, Guillaume Gravier, Yann Soullard, Bertrand Coüasnon,
- Abstract要約: 本研究では,Transformerベースのライセンスプレート認識システムは,テンソル生産環境には適さないことを示す。
そこで我々は,Syntax-Less Transformerを用いて,ライセンスプレート表現の構文非依存なモデリングを行う,アーキテクチャのカットオフと置換をSaLTに統合する。
実データと合成データの両方の実験は、我々のアプローチが過去の構文上で最高精度に達し、最も重要なことは、将来のライセンスプレートのパフォーマンスをほぼ維持していることを示している。
- 参考スコア(独自算出の注目度): 28.6396046153359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective license plate recognition systems are required to be resilient to constant change, as new license plates are released into traffic daily. While Transformer-based networks excel in their recognition at first sight, we observe significant performance drop over time which proves them unsuitable for tense production environments. Indeed, such systems obtain state-of-the-art results on plates whose syntax is seen during training. Yet, we show they perform similarly to random guessing on future plates where legible characters are wrongly recognized due to a shift in their syntax. After highlighting the flows of positional and contextual information in Transformer encoder-decoders, we identify several causes for their over-reliance on past syntax. Following, we devise architectural cut-offs and replacements which we integrate into SaLT, an attempt at a Syntax-Less Transformer for syntax-agnostic modeling of license plate representations. Experiments on both real and synthetic datasets show that our approach reaches top accuracy on past syntax and most importantly nearly maintains performance on future license plates. We further demonstrate the robustness of our architecture enhancements by way of various ablations.
- Abstract(参考訳): 有効ナンバープレート認識システムは、新しいナンバープレートが毎日交通に放出されるため、一定の変更に対して弾力性が要求される。
トランスフォーマーベースのネットワークは、一見するとその認識に優れるが、時間とともに大幅な性能低下が観察され、緊張する生産環境には適さないことが証明された。
実際、このようなシステムは、トレーニング中に構文を見ることができるプレート上で、最先端の結果を得る。
しかし,これらは,構文の変化により可読文字が誤認識される将来のプレート上で,ランダムな推測と同じような性能を示すことを示す。
トランスフォーマーエンコーダデコーダにおける位置情報と文脈情報のフローを強調した後、過去の構文に過度に依存する原因をいくつか特定する。
そこで我々は,Syntax-Less Transformer を用いたライセンスプレート表現の構文に依存しないモデリング手法である SaLT に統合したアーキテクチャのカットオフとリプレースを考案した。
実データと合成データの両方の実験は、我々のアプローチが過去の構文上で最高精度に達し、最も重要なことは、将来のライセンスプレートのパフォーマンスをほぼ維持していることを示している。
さらに,アーキテクチャ拡張の堅牢性について,さまざまなアプローチを用いて実証する。
関連論文リスト
- A Dataset and Model for Realistic License Plate Deblurring [17.52035404373648]
ライセンスプレートブラ(LPBlur)と呼ばれる,最初の大規模ナンバープレートデブロアリングデータセットについて紹介する。
そこで我々は,ライセンスプレート・デブロアリングに対処するために,LPDGAN (L License Plate Deblurring Generative Adversarial Network) を提案する。
提案手法は,現実的なナンバープレートのデブロアリングシナリオにおいて,他の最先端の動作デブロアリング手法よりも優れる。
論文 参考訳(メタデータ) (2024-04-21T14:36:57Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - BERT got a Date: Introducing Transformers to Temporal Tagging [4.651578365545765]
本稿では,RoBERTa言語モデルを用いたトランスフォーマー・エンコーダ・デコーダモデルを提案する。
我々のモデルは、特に稀なクラスにおいて、時間的タグ付けや型分類において、過去の研究を上回っている。
論文 参考訳(メタデータ) (2021-09-30T08:54:21Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。