論文の概要: Improving Scene Text Recognition for Character-Level Long-Tailed
Distribution
- arxiv url: http://arxiv.org/abs/2304.08592v1
- Date: Fri, 31 Mar 2023 06:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-23 04:27:55.812967
- Title: Improving Scene Text Recognition for Character-Level Long-Tailed
Distribution
- Title(参考訳): 文字レベル長手分布のためのシーンテキスト認識の改善
- Authors: Sunghyun Park, Sunghyo Chung, Jungsoo Lee, Jaegul Choo
- Abstract要約: 本稿では,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。
CAFE-Netは多数の文字を含む言語でのSTR性能を改善する。
- 参考スコア(独自算出の注目度): 35.14058653707104
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the recent remarkable improvements in scene text recognition (STR),
the majority of the studies focused mainly on the English language, which only
includes few number of characters. However, STR models show a large performance
degradation on languages with a numerous number of characters (e.g., Chinese
and Korean), especially on characters that rarely appear due to the long-tailed
distribution of characters in such languages. To address such an issue, we
conducted an empirical analysis using synthetic datasets with different
character-level distributions (e.g., balanced and long-tailed distributions).
While increasing a substantial number of tail classes without considering the
context helps the model to correctly recognize characters individually,
training with such a synthetic dataset interferes the model with learning the
contextual information (i.e., relation among characters), which is also
important for predicting the whole word. Based on this motivation, we propose a
novel Context-Aware and Free Experts Network (CAFE-Net) using two experts: 1)
context-aware expert learns the contextual representation trained with a
long-tailed dataset composed of common words used in everyday life and 2)
context-free expert focuses on correctly predicting individual characters by
utilizing a dataset with a balanced number of characters. By training two
experts to focus on learning contextual and visual representations,
respectively, we propose a novel confidence ensemble method to compensate the
limitation of each expert. Through the experiments, we demonstrate that
CAFE-Net improves the STR performance on languages containing numerous number
of characters. Moreover, we show that CAFE-Net is easily applicable to various
STR models.
- Abstract(参考訳): 近年のシーンテキスト認識(STR)の顕著な改善にもかかわらず、研究の大部分は英語に焦点を合わせており、文字数は少ない。
しかし、STRモデルは、多数の文字(中国語や韓国語など)を持つ言語、特にそのような言語における文字の長い尾の分布のために稀に現れる文字に対して、大きな性能低下を示す。
このような問題に対処するために,文字レベル分布の異なる合成データセット(例えば,バランスとロングテール分布)を用いた経験的分析を行った。
文脈を考慮せずにかなりの数の尾クラスを増やせば、個々の文字を正しく認識できるが、そのような合成データセットを用いた訓練は、単語全体を予測する上でも重要である文脈情報(文字間の関係)を学習することでモデルを妨害する。
このモチベーションに基づいて,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。
1)コンテキスト認識の専門家は、日常生活で使われる一般的な単語からなる長い尾のデータセットで訓練された文脈表現を学習し、
2)コンテキストフリーの専門家は,バランスの取れた文字数を持つデータセットを利用することで,個々の文字を正確に予測することに焦点を当てている。
2人の専門家にそれぞれ文脈表現と視覚表現の学習に焦点を合わせ、各専門家の限界を補う新しい自信アンサンブル法を提案する。
実験により,多数の文字を含む言語において,CAFE-NetがSTR性能を向上させることを示した。
さらに,CAFE-Netは様々なSTRモデルに容易に適用可能であることを示す。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Text-Guided Mixup Towards Long-Tailed Image Categorization [7.207351201912651]
多くの実世界のアプリケーションにおいて、トレーニングデータのためのクラスラベルの周波数分布は、長い尾の分布を示すことができる。
本稿では,事前学習したテキストエンコーダによって認識されるクラス間の意味的関係を利用した,テキスト誘導型ミックスアップ手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:37:43Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Multi-level Contrastive Learning for Script-based Character
Understanding [14.341307979533871]
文字の個人性やアイデンティティを発話から学習することを目的としたスクリプトにおける文字理解のシナリオに取り組む。
キャラクタのグローバル情報をきめ細かな方法でキャプチャするマルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T02:40:52Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。