論文の概要: Ultra Light OCR Competition Technical Report
- arxiv url: http://arxiv.org/abs/2110.12623v1
- Date: Mon, 25 Oct 2021 03:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:00:00.271717
- Title: Ultra Light OCR Competition Technical Report
- Title(参考訳): 超軽量OCRコンペティションレポート
- Authors: Shuhan Zhang, Yuxin Zou, Tianhe Wang, Yichao Xiong
- Abstract要約: ウルトラライトOCRコンペティション(Ultra Light OCRコンペティション)は、CSIG(China Society of Image and Graphics)とBaiduが共同で開催している中国のシーンテキスト認識コンペティションである。
提案手法は,TestBデータセットの精度0.817の100以上のチームの中で第2位となった,中国のシーンテキスト認識のための汎用的で効果的な手法である。
- 参考スコア(独自算出の注目度): 2.6340198594420747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra Light OCR Competition is a Chinese scene text recognition competition
jointly organized by CSIG (China Society of Image and Graphics) and Baidu, Inc.
In addition to focusing on common problems in Chinese scene text recognition,
such as long text length and massive characters, we need to balance the
trade-off of model scale and accuracy since the model size limitation in the
competition is 10M.
From experiments in aspects of data, model, training, etc, we proposed a
general and effective method for Chinese scene text recognition, which got us
second place among over 100 teams with accuracy 0.817 in TestB dataset. The
code is available at https://aistudio.baidu.com/aistudio/projectdetail/2159102.
- Abstract(参考訳): ウルトラライトOCRコンペティション(Ultra Light OCRコンペティション)は、CSIG(China Society of Image and Graphics)とBaiduが共同で開催している中国のシーンテキスト認識コンペティションである。
長文長や大文字など,中国のシーンテキスト認識における共通問題に注目するだけでなく,モデルサイズ制限が10mであることから,モデルスケールと精度のトレードオフのバランスをとる必要がある。
データ、モデル、トレーニングなどの分野での実験から、中国のシーンテキスト認識の汎用的かつ効果的な方法を提案し、testbデータセットの精度0.817で100チーム以上で2位となった。
コードはhttps://aistudio.baidu.com/aistudio/projectdetail/2159102で入手できる。
関連論文リスト
- Technical Report on the Pangram AI-Generated Text Classifier [0.14732811715354457]
トランスフォーマーをベースとしたニューラルネットワークであるPangram Textについて紹介する。
パングラムテキストは英語以外の話者に偏りがなく、訓練中に見つからないドメインやモデルに一般化されていることを示す。
論文 参考訳(メタデータ) (2024-02-21T17:13:41Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - A Benchmark for Chinese-English Scene Text Image Super-resolution [15.042152725255171]
Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。
我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
論文 参考訳(メタデータ) (2023-08-07T02:57:48Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine
Reading Comprehension [9.66226932673554]
ネイティブ・チャイニーズ・リーダー(Native Chinese Reader)は、現代中国語と古典中国語の両方で特に長い記事を載せた、新しい機械読解データセットである。
NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。
論文 参考訳(メタデータ) (2021-12-13T09:11:38Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。