論文の概要: Billet Number Recognition Based on Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2502.09026v1
- Date: Thu, 13 Feb 2025 07:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:26.193704
- Title: Billet Number Recognition Based on Test-Time Adaptation
- Title(参考訳): テスト時間適応に基づくビレット数認識
- Authors: Yuan Wei, Xiuzhuang Zhou,
- Abstract要約: 本稿では,テスト時間適応と事前知識を統合するビレット数認識手法を提案する。
機械印刷ビレット数と手書きビレット数の両方を含む実際のデータセットの実験結果から,評価指標の大幅な改善が示された。
- 参考スコア(独自算出の注目度): 3.663302839754229
- License:
- Abstract: During the steel billet production process, it is essential to recognize machine-printed or manually written billet numbers on moving billets in real-time. To address the issue of low recognition accuracy for existing scene text recognition methods, caused by factors such as image distortions and distribution differences between training and test data, we propose a billet number recognition method that integrates test-time adaptation with prior knowledge. First, we introduce a test-time adaptation method into a model that uses the DB network for text detection and the SVTR network for text recognition. By minimizing the model's entropy during the testing phase, the model can adapt to the distribution of test data without the need for supervised fine-tuning. Second, we leverage the billet number encoding rules as prior knowledge to assess the validity of each recognition result. Invalid results, which do not comply with the encoding rules, are replaced. Finally, we introduce a validation mechanism into the CTC algorithm using prior knowledge to address its limitations in recognizing damaged characters. Experimental results on real datasets, including both machine-printed billet numbers and handwritten billet numbers, show significant improvements in evaluation metrics, validating the effectiveness of the proposed method.
- Abstract(参考訳): 鋼ビレット製造過程において,機械印刷又は手書きのビレット番号をリアルタイムで認識することが不可欠である。
既存のシーンテキスト認識手法において,画像歪みやトレーニングデータとテストデータの分布差などの要因による認識精度の低い問題に対処するため,テスト時間適応と事前知識を統合するビレット数認識手法を提案する。
まず,テキスト検出のためのDBネットワークと,テキスト認識のためのSVTRネットワークを用いたモデルに,テスト時間適応手法を導入する。
テストフェーズにおけるモデルのエントロピーを最小化することにより、モデルは教師付き微調整を必要とせずに、テストデータの分布に適応することができる。
第2に、各認識結果の有効性を評価するために、ビレット番号符号化ルールを事前知識として活用する。
エンコーディングルールに従わない無効な結果を置き換える。
最後に、損傷した文字を認識する際の限界に対処するために、事前知識を用いた検証機構をCTCアルゴリズムに導入する。
機械印刷ビレット数と手書きビレット数の両方を含む実データを用いた実験結果から,提案手法の有効性を検証した。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Recognizing student identification numbers from the matrix templates
using a modified U-net architecture [0.0]
本稿では,試験と知識テストにおける学生の識別に対する革新的なアプローチを提案する。
提案手法は,数を含む正方形を選択的に黒くする試験の指定された区間に行列テンプレートを用いている。
生徒の個人識別番号の認識に特化して設計されたニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2023-07-12T12:20:04Z) - Context-Aware Selective Label Smoothing for Calibrating Sequence
Recognition Model [16.7796720078021]
逐次データを校正するための文脈対応選択ラベル平滑化法(CASLS)を提案する。
シーンテキスト認識や音声認識などのシーケンス認識タスクの結果は,本手法が最先端の性能を達成できることを実証している。
論文 参考訳(メタデータ) (2023-03-13T09:27:52Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Applications of Signature Methods to Market Anomaly Detection [1.911678487931003]
本稿では,特徴抽出器としてのシグネチャやランダム化シグネチャの異常検出アルゴリズムへの応用について述べる。
暗号通貨市場からの取引データを用いて実生活のアプリケーションを示す。
この場合、F1スコアが最大88%のソーシャルネットワーク上で組織されたポンプとダンプの試行を特定できる。
論文 参考訳(メタデータ) (2022-01-07T13:05:43Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Exploring the Capacity of a Large-scale Masked Language Model to
Recognize Grammatical Errors [3.55517579369797]
トレーニングデータの5~10%は、BERTに基づく誤り検出法で、非言語モデルに基づく手法と同等の性能を実現するのに十分であることを示す。
また、擬似誤差データを用いて、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示すことを示す。
論文 参考訳(メタデータ) (2021-08-27T10:37:14Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。