論文の概要: SAFL: A Self-Attention Scene Text Recognizer with Focal Loss
- arxiv url: http://arxiv.org/abs/2201.00132v1
- Date: Sat, 1 Jan 2022 06:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:01:15.640459
- Title: SAFL: A Self-Attention Scene Text Recognizer with Focal Loss
- Title(参考訳): SAFL: 音声を失くした自己認識型シーンテキスト認識装置
- Authors: Bao Hieu Tran, Thanh Le-Cong, Huu Manh Nguyen, Duc Anh Le, Thanh Hung
Nguyen, Phi Le Nguyen
- Abstract要約: 歪みや不規則なレイアウトといった固有の問題のために、シーンテキスト認識は依然として困難である。
既存のアプローチのほとんどは、主に再発や畳み込みに基づくニューラルネットワークを利用している。
本稿では,シーンテキスト認識のための焦点損失を考慮した自己注意型ニューラルネットワークモデルSAFLを紹介する。
- 参考スコア(独自算出の注目度): 4.462730814123762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the last decades, scene text recognition has gained worldwide attention
from both the academic community and actual users due to its importance in a
wide range of applications. Despite achievements in optical character
recognition, scene text recognition remains challenging due to inherent
problems such as distortions or irregular layout. Most of the existing
approaches mainly leverage recurrence or convolution-based neural networks.
However, while recurrent neural networks (RNNs) usually suffer from slow
training speed due to sequential computation and encounter problems as
vanishing gradient or bottleneck, CNN endures a trade-off between complexity
and performance. In this paper, we introduce SAFL, a self-attention-based
neural network model with the focal loss for scene text recognition, to
overcome the limitation of the existing approaches. The use of focal loss
instead of negative log-likelihood helps the model focus more on low-frequency
samples training. Moreover, to deal with the distortions and irregular texts,
we exploit Spatial TransformerNetwork (STN) to rectify text before passing to
the recognition network. We perform experiments to compare the performance of
the proposed model with seven benchmarks. The numerical results show that our
model achieves the best performance.
- Abstract(参考訳): 過去数十年間、シーンのテキスト認識は、幅広いアプリケーションでの重要性から、学術コミュニティと実際のユーザの両方から世界的に注目を集めてきた。
光文字認識の成果にもかかわらず、歪みや不規則なレイアウトといった固有の問題のために、シーンテキスト認識は依然として困難である。
既存のアプローチの多くは、再帰的あるいは畳み込みベースのニューラルネットワークを主に活用している。
しかしながら、リカレントニューラルネットワーク(RNN)は通常、逐次計算によるトレーニング速度の低下と、勾配やボトルネックの消滅という問題に直面するが、CNNは複雑さとパフォーマンスのトレードオフに耐えている。
本稿では,シーンテキスト認識のための焦点損失を考慮した自己注意型ニューラルネットワークモデルSAFLを紹介し,既存のアプローチの限界を克服する。
負の対数に代えて焦点損失を用いることで、モデルは低周波サンプルトレーニングに集中することができる。
さらに、歪みや不規則なテキストに対処するために、認識ネットワークに渡す前にSpatial TransformerNetwork(STN)を用いてテキストの修正を行う。
提案モデルの性能を7つのベンチマークと比較する実験を行った。
その結果,本モデルが最も優れた性能が得られることがわかった。
関連論文リスト
- Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning [23.13972240042859]
本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
論文 参考訳(メタデータ) (2020-09-23T21:51:29Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Surrogate gradients for analog neuromorphic computing [2.6475944316982942]
デバイスミスマッチに対する自己修正学習は,視覚と音声のベンチマークにおいて,競争力のあるネットワーク性能をもたらすことを示す。
我々の研究は、アナログニューロモルフィックハードウェア上での低エネルギースパイクネットワーク処理のための新しいベンチマークをいくつか設定する。
論文 参考訳(メタデータ) (2020-06-12T14:45:12Z) - "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion
Recognition [0.0]
音声による感情認識を利用するアプリケーションでは、フレームロスは多様体の応用を考えると深刻な問題となる。
フレームロスが音声による感情認識に与える影響を初めて検討する。
論文 参考訳(メタデータ) (2020-05-15T19:33:40Z) - Suppressing Uncertainties for Large-Scale Facial Expression Recognition [81.51495681011404]
本稿では,不確実性を効果的に抑制し,深層ネットワークが不確実な顔画像に過度に収まらないような,シンプルで効率的なセルフキュアネットワーク(SCN)を提案する。
公開ベンチマークの結果、我々のSCNは現在の最先端メソッドよりも、RAF-DBで textbf88.14%、AffectNetで textbf60.23%、FERPlusで textbf89.35% を上回りました。
論文 参考訳(メタデータ) (2020-02-24T17:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。