論文の概要: Improving Scene Text Recognition for Character-Level Long-Tailed
Distribution
- arxiv url: http://arxiv.org/abs/2304.08592v1
- Date: Fri, 31 Mar 2023 06:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-23 04:27:55.812967
- Title: Improving Scene Text Recognition for Character-Level Long-Tailed
Distribution
- Title(参考訳): 文字レベル長手分布のためのシーンテキスト認識の改善
- Authors: Sunghyun Park, Sunghyo Chung, Jungsoo Lee, Jaegul Choo
- Abstract要約: 本稿では,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。
CAFE-Netは多数の文字を含む言語でのSTR性能を改善する。
- 参考スコア(独自算出の注目度): 35.14058653707104
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the recent remarkable improvements in scene text recognition (STR),
the majority of the studies focused mainly on the English language, which only
includes few number of characters. However, STR models show a large performance
degradation on languages with a numerous number of characters (e.g., Chinese
and Korean), especially on characters that rarely appear due to the long-tailed
distribution of characters in such languages. To address such an issue, we
conducted an empirical analysis using synthetic datasets with different
character-level distributions (e.g., balanced and long-tailed distributions).
While increasing a substantial number of tail classes without considering the
context helps the model to correctly recognize characters individually,
training with such a synthetic dataset interferes the model with learning the
contextual information (i.e., relation among characters), which is also
important for predicting the whole word. Based on this motivation, we propose a
novel Context-Aware and Free Experts Network (CAFE-Net) using two experts: 1)
context-aware expert learns the contextual representation trained with a
long-tailed dataset composed of common words used in everyday life and 2)
context-free expert focuses on correctly predicting individual characters by
utilizing a dataset with a balanced number of characters. By training two
experts to focus on learning contextual and visual representations,
respectively, we propose a novel confidence ensemble method to compensate the
limitation of each expert. Through the experiments, we demonstrate that
CAFE-Net improves the STR performance on languages containing numerous number
of characters. Moreover, we show that CAFE-Net is easily applicable to various
STR models.
- Abstract(参考訳): 近年のシーンテキスト認識(STR)の顕著な改善にもかかわらず、研究の大部分は英語に焦点を合わせており、文字数は少ない。
しかし、STRモデルは、多数の文字(中国語や韓国語など)を持つ言語、特にそのような言語における文字の長い尾の分布のために稀に現れる文字に対して、大きな性能低下を示す。
このような問題に対処するために,文字レベル分布の異なる合成データセット(例えば,バランスとロングテール分布)を用いた経験的分析を行った。
文脈を考慮せずにかなりの数の尾クラスを増やせば、個々の文字を正しく認識できるが、そのような合成データセットを用いた訓練は、単語全体を予測する上でも重要である文脈情報(文字間の関係)を学習することでモデルを妨害する。
このモチベーションに基づいて,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。
1)コンテキスト認識の専門家は、日常生活で使われる一般的な単語からなる長い尾のデータセットで訓練された文脈表現を学習し、
2)コンテキストフリーの専門家は,バランスの取れた文字数を持つデータセットを利用することで,個々の文字を正確に予測することに焦点を当てている。
2人の専門家にそれぞれ文脈表現と視覚表現の学習に焦点を合わせ、各専門家の限界を補う新しい自信アンサンブル法を提案する。
実験により,多数の文字を含む言語において,CAFE-NetがSTR性能を向上させることを示した。
さらに,CAFE-Netは様々なSTRモデルに容易に適用可能であることを示す。
関連論文リスト
- LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Partial Diacritization: A Context-Contrastive Inference Approach [0.6587258071269679]
ダイアクリプティゼーションは、読みやすさを改善し、アラビア語のテキストの意味を曖昧にする上で重要な役割を担っている。
partial Diacritzation (PD) は、必要に応じて理解を助けるためにマークされる文字のサブセットの選択である。
本稿では,既存のアラビア語発音システムとシームレスに統合するPDの新しいアプローチである,文脈コントラスト部分発音法(CCPD)を紹介する。
論文 参考訳(メタデータ) (2024-01-17T02:04:59Z) - Multi-Task Learning for Front-End Text Processing in TTS [15.62497569424995]
テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
論文 参考訳(メタデータ) (2024-01-12T02:13:21Z) - Multi-level Contrastive Learning for Script-based Character
Understanding [14.341307979533871]
文字の個人性やアイデンティティを発話から学習することを目的としたスクリプトにおける文字理解のシナリオに取り組む。
キャラクタのグローバル情報をきめ細かな方法でキャプチャするマルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T02:40:52Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。