論文の概要: TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming
- arxiv url: http://arxiv.org/abs/2402.09811v1
- Date: Thu, 15 Feb 2024 09:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:16:30.561515
- Title: TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming
- Title(参考訳): TEXTRON:データプログラミングによる多言語テキストの検出
- Authors: Dhruv Kudale, Badri Vishal Kasuba, Venkatapathy Subramanian, Parag
Chaudhuri, Ganesh Ramakrishnan
- Abstract要約: テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
- 参考スコア(独自算出の注目度): 21.88026116276415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several recent deep learning (DL) based techniques perform considerably well
on image-based multilingual text detection. However, their performance relies
heavily on the availability and quality of training data. There are numerous
types of page-level document images consisting of information in several
modalities, languages, fonts, and layouts. This makes text detection a
challenging problem in the field of computer vision (CV), especially for
low-resource or handwritten languages. Furthermore, there is a scarcity of
word-level labeled data for text detection, especially for multilingual
settings and Indian scripts that incorporate both printed and handwritten text.
Conventionally, Indian script text detection requires training a DL model on
plenty of labeled data, but to the best of our knowledge, no relevant datasets
are available. Manual annotation of such data requires a lot of time, effort,
and expertise. In order to solve this problem, we propose TEXTRON, a Data
Programming-based approach, where users can plug various text detection methods
into a weak supervision-based learning framework. One can view this approach to
multilingual text detection as an ensemble of different CV-based techniques and
DL approaches. TEXTRON can leverage the predictions of DL models pre-trained on
a significant amount of language data in conjunction with CV-based methods to
improve text detection in other languages. We demonstrate that TEXTRON can
improve the detection performance for documents written in Indian languages,
despite the absence of corresponding labeled data. Further, through extensive
experimentation, we show improvement brought about by our approach over the
current State-of-the-art (SOTA) models, especially for handwritten Devanagari
text. Code and dataset has been made available at
https://github.com/IITB-LEAP-OCR/TEXTRON
- Abstract(参考訳): 近年の深層学習(DL)技術は,画像に基づく多言語テキスト検出に大きく貢献している。
しかし、そのパフォーマンスはトレーニングデータの可用性と品質に大きく依存している。
いくつかのモダリティ、言語、フォント、レイアウトの情報からなるページレベルのドキュメントイメージには、数多くの種類がある。
これにより、特に低リソース言語や手書き言語において、テキスト検出はコンピュータビジョン(CV)の分野で難しい問題となる。
さらに、テキスト検出のための単語レベルのラベル付きデータの不足、特に多言語設定や、印刷テキストと手書きテキストの両方を含むインドのスクリプトが不足している。
従来、インドのスクリプトテキスト検出では、ラベル付きデータを多用したDLモデルをトレーニングする必要がありますが、私たちの知る限り、関連するデータセットは利用できません。
このようなデータの手動アノテーションには、多くの時間、労力、専門知識が必要です。
そこで本研究では,様々なテキスト検出手法を弱い教師ベース学習フレームワークに組み込む,データプログラミングに基づくアプローチであるtextronを提案する。
多言語テキスト検出に対するこのアプローチは,様々なCVベースの手法とDLアプローチのアンサンブルとして見ることができる。
TEXTRONは,大量の言語データに基づいて事前学習したDLモデルの予測と,他の言語でのテキスト検出を改善するCVベースの手法を利用することができる。
我々は,対応するラベル付きデータがないにも関わらず,TEXTRONがインドの言語で書かれた文書の検出性能を向上させることを実証した。
さらに, 広範囲な実験を通じて, 現状技術(SOTA)モデルに対するアプローチによる改善, 特に手書きのDevannagariテキストについて述べる。
コードとデータセットはhttps://github.com/IITB-LEAP-OCR/TEXTRONで公開されている。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Research on Multilingual Natural Scene Text Detection Algorithm [4.514028820667202]
自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。
そこで我々は,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語にわたる文字やフォントの検出において,モデルの堅牢性を高める。
そこで本研究では,より効率的なテキスト検出のためのグローバルな特徴を抽出し,保存するグローバルセマンティックブランチを提案する。
論文 参考訳(メタデータ) (2023-12-18T12:46:35Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。
このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T10:33:03Z) - XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages [11.581072296148031]
拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。
構造認識型入力エンコーディングとファクト認識を用いたマルチ言語 mT5 モデルにより,12言語の平均結果が得られた。
論文 参考訳(メタデータ) (2022-09-22T18:01:27Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。