Fugu-MT 論文翻訳(概要): OCR Synthetic Benchmark Dataset for Indic Languages

論文の概要: OCR Synthetic Benchmark Dataset for Indic Languages

arxiv url: http://arxiv.org/abs/2205.02543v1
Date: Thu, 5 May 2022 10:07:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-06 23:54:54.896483
Title: OCR Synthetic Benchmark Dataset for Indic Languages
Title（参考訳）: インデックス言語のためのOCR合成ベンチマークデータセット
Authors: Naresh Saini, Promodh Pinto, Aravinth Bheemaraj, Deepak Kumar, Dhiraj Daga, Saurabh Yadav and Srihari Nagaraj
Abstract要約: 我々は,Indic言語用のOCRベンチマークデータセットとして最大規模を公開している。コレクションには合計90kの画像と23のIndic言語に関する基礎的な真実が含まれている。
参考スコア（独自算出の注目度）: 1.3460700494288012
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the largest publicly available synthetic OCR benchmark dataset for Indic languages. The collection contains a total of 90k images and their ground truth for 23 Indic languages. OCR model validation in Indic languages require a good amount of diverse data to be processed in order to create a robust and reliable model. Generating such a huge amount of data would be difficult otherwise but with synthetic data, it becomes far easier. It can be of great importance to fields like Computer Vision or Image Processing where once an initial synthetic data is developed, model creation becomes easier. Generating synthetic data comes with the flexibility to adjust its nature and environment as and when required in order to improve the performance of the model. Accuracy for labeled real-time data is sometimes quite expensive while accuracy for synthetic data can be easily achieved with a good score.
Abstract（参考訳）: Indic言語用のOCRベンチマークデータセットとしては最大である。コレクションには合計90kの画像と23のIndic言語に関する基礎的な真実が含まれている。 Indic言語におけるOCRモデルの検証には、堅牢で信頼性の高いモデルを作成するために、大量の多様なデータを処理する必要がある。このような膨大な量のデータを生成することは難しいが、合成データを使えば、はるかに簡単になる。コンピュータビジョンや画像処理といった分野において、最初の合成データが開発されれば、モデルの作成が容易になります。合成データの生成には、モデルの性能を向上させるために、その性質と環境を必要に応じて調整する柔軟性が伴う。ラベル付きリアルタイムデータの精度は非常に高くつくが、合成データの精度は良いスコアで容易に達成できる。

関連論文リスト

Artificial Conversations, Real Results: Fostering Language Detection with Synthetic Data [0.2687400480679652]
本研究では,合成データを生成するパイプラインと,大規模言語モデルが生成する合成データの有効性に影響を与える要因を総合的に検討する。我々の結果は、ほとんどのケースと異なるメトリクスにおいて、合成データに基づいて訓練された微調整されたモデルが、実データと合成テストデータセットの両方において、他のモデルよりも一貫して優れていたことを示している。
論文参考訳（メタデータ） (2025-03-31T13:22:34Z)
Assessing Generative Models for Structured Data [0.0]
本稿では,データ内のカラム間依存関係を調べることで,実データに対して合成データを評価するための厳密な手法を提案する。大規模言語モデル (GPT-2) は,数発のプロンプトによってクエリされた場合と微調整された場合の両方で,GAN (CTGAN) モデルは元の実データに類似した依存関係を持つデータを生成しないことがわかった。
論文参考訳（メタデータ） (2025-03-26T18:19:05Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。高品質な命令チューニングデータを生成することができる。また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文参考訳（メタデータ） (2025-02-20T18:55:30Z)
Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳（メタデータ） (2024-10-29T17:55:00Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Scrambled text: training Language Models to correct OCR errors using synthetic data [0.0]
本稿では,合成データ上での言語モデルの微調整により,OCRエラーの修正能力が大幅に向上することを示す。合成データで訓練されたモデルは、文字誤り率を55%減らし、単語誤り率を32%減らし、実際のデータで訓練されたモデルよりも優れていた。
論文参考訳（メタデータ） (2024-09-29T15:20:37Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文参考訳（メタデータ） (2023-10-27T03:32:17Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。 EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文参考訳（メタデータ） (2023-10-16T04:20:16Z)
GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文参考訳（メタデータ） (2023-09-20T14:25:44Z)
Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-17T02:53:21Z)
Advancing Semi-Supervised Learning for Automatic Post-Editing: Data-Synthesis by Mask-Infilling with Erroneous Terms [5.366354612549173]
高品質な合成データを作成するためのデータ合成手法に着目する。本稿では,結果の合成データが実際のデータにある翻訳誤りを模倣するデータ合成手法を提案する。実験結果から, 提案手法により生成した合成データを用いることで, 既存の合成データよりもAPEの性能が有意に向上することがわかった。
論文参考訳（メタデータ） (2022-04-08T07:48:57Z)
Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models [15.481446439370343]
ERRANTなどの自動アノテーションツールからのエラー型タグを使用して、合成データ生成をガイドする。我々は、与えられた開発セットにマッチするエラータグ頻度分布を持つ、新しい大規模合成事前学習データセットを構築した。本手法は,母国英語と非母国英語を混合したGECシステムをネイティブ英語テストセットに適用する上で,特に有効である。
論文参考訳（メタデータ） (2021-05-27T17:17:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。