論文の概要: An Empirical Study of Scaling Law for OCR
- arxiv url: http://arxiv.org/abs/2401.00028v3
- Date: Wed, 31 Jan 2024 12:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:04:00.684404
- Title: An Empirical Study of Scaling Law for OCR
- Title(参考訳): OCRのスケーリング法則に関する実証的研究
- Authors: Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han
- Abstract要約: 本研究では,テキスト認識分野におけるモデルの性能とスケール,データボリューム,計算の相関について検討する。
我々は,600万個の実検体と1800万個の合成検体からなるREBU-Synという大規模データセットを構築した。
スケーリング法則と新しいデータセットに基づいて、シーンテキスト認識モデルをトレーニングし、トップ1の平均精度97.42%の6つの一般的なテストベンチマークに対して、最先端の新たなベンチマークを達成しました。
- 参考スコア(独自算出の注目度): 27.70588974109612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The laws of model size, data volume, computation and model performance have
been extensively studied in the field of Natural Language Processing (NLP).
However, the scaling laws in Optical Character Recognition (OCR) have not yet
been investigated. To address this, we conducted comprehensive studies that
involved examining the correlation between performance and the scale of models,
data volume and computation in the field of text recognition.Conclusively, the
study demonstrates smooth power laws between performance and model size, as
well as training data volume, when other influencing factors are held constant.
Additionally, we have constructed a large-scale dataset called REBU-Syn, which
comprises 6 million real samples and 18 million synthetic samples. Based on our
scaling law and new dataset, we have successfully trained a scene text
recognition model, achieving a new state-ofthe-art on 6 common test benchmarks
with a top-1 average accuracy of 97.42%. The models and dataset are publicly
available at https://github.com/large-ocr-model/large-ocr-model.github.io.
- Abstract(参考訳): モデルサイズ、データボリューム、計算、モデル性能の法則は自然言語処理(nlp)の分野で広く研究されてきた。
しかし、光学文字認識(OCR)におけるスケーリング法則はまだ研究されていない。
そこで本研究では,テキスト認識分野におけるモデルの性能とスケール,データボリューム,計算の相関関係を総合的に検討し,他の要因が一定である場合に,性能とモデルサイズ間のスムーズなパワー則と,データボリュームのトレーニングを行う。
さらに,600万実サンプルと1800万合成サンプルからなる,rebu-synと呼ばれる大規模データセットを構築した。
スケーリング法則と新しいデータセットに基づいて、シーンテキスト認識モデルをトレーニングし、トップ1の平均精度97.42%の6つの一般的なテストベンチマーク上で、最先端の新たなテストを実現しました。
モデルとデータセットはhttps://github.com/large-ocr-model/large-ocr-model.github.ioで公開されている。
関連論文リスト
- Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
効率的なコサイン類似度に基づく分類困難度尺度Sを提案する。
データセットのクラス数とクラス内およびクラス間の類似度メトリクスから計算される。
この手法を実践者が、繰り返しトレーニングやテストによって、6倍から29倍の速度で効率の良いモデルを選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-04-09T03:27:09Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。