論文の概要: RusTitW: Russian Language Text Dataset for Visual Text in-the-Wild
Recognition
- arxiv url: http://arxiv.org/abs/2303.16531v1
- Date: Wed, 29 Mar 2023 08:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 15:27:13.784760
- Title: RusTitW: Russian Language Text Dataset for Visual Text in-the-Wild
Recognition
- Title(参考訳): RusTitW: 視覚テキスト認識のためのロシア語テキストデータセット
- Authors: Igor Markov, Sergey Nesteruk, Andrey Kuznetsov, Denis Dimitrov
- Abstract要約: 我々は,ロシア語テキスト認識のための大規模人ラベルデータセットを提案する。
また、生成過程を再現するための合成データセットとコードも公開します。
- 参考スコア(独自算出の注目度): 2.0525390080943398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information surrounds people in modern life. Text is a very efficient type of
information that people use for communication for centuries. However, automated
text-in-the-wild recognition remains a challenging problem. The major
limitation for a DL system is the lack of training data. For the competitive
performance, training set must contain many samples that replicate the
real-world cases. While there are many high-quality datasets for English text
recognition; there are no available datasets for Russian language. In this
paper, we present a large-scale human-labeled dataset for Russian text
recognition in-the-wild. We also publish a synthetic dataset and code to
reproduce the generation process
- Abstract(参考訳): 情報は現代生活の人々を囲んでいる。
テキストは、何世紀にもわたって人々がコミュニケーションに使っている非常に効率的な情報である。
しかし、自動テキスト・イン・ザ・ワイルド認識は依然として難しい問題である。
DLシステムの大きな制限は、トレーニングデータの欠如である。
競争力のあるパフォーマンスのためには、トレーニングセットには現実世界のケースを再現する多くのサンプルが含まれなければならない。
英語のテキスト認識には高品質なデータセットが多数あるが、ロシア語用のデータセットは存在しない。
本稿では,ロシア文字認識のための大規模人間ラベルデータセットを提案する。
また、生成過程を再現するための合成データセットとコードも公開します。
関連論文リスト
- Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。
タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文 参考訳(メタデータ) (2024-11-07T00:06:53Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Why You Should Try the Real Data for the Scene Text Recognition [0.0]
人間のラベル付き自然テキスト認識データセットが不足しているため、研究者はテキスト認識モデルのトレーニングに合成データを使うことを余儀なくされている。
我々は,このアノテーションをthet Another Mask Text Spotterのテキスト認識ヘッドアーキテクチャで使用し,SOTAの結果に匹敵する結果を得た。
本稿では,テキスト認識モデルについても紹介する。
論文 参考訳(メタデータ) (2021-07-29T12:58:57Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - Russian Natural Language Generation: Creation of a Language Modelling
Dataset and Evaluation with Modern Neural Architectures [0.0]
ロシア語モデリングのための新しい参照データセットを提供する。
我々は、テキスト生成、すなわち変分オートエンコーダ、および生成的敵ネットワークのための一般的なモダンな手法を実験した。
我々は, 難易度, 文法的正しさ, 語彙的多様性などの指標について, 生成したテキストを評価する。
論文 参考訳(メタデータ) (2020-05-05T20:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。