論文の概要: TS-Net: OCR Trained to Switch Between Text Transcription Styles
- arxiv url: http://arxiv.org/abs/2103.05489v1
- Date: Tue, 9 Mar 2021 15:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:55:01.759446
- Title: TS-Net: OCR Trained to Switch Between Text Transcription Styles
- Title(参考訳): TS-Net:テキスト転写スタイルを切り替えるOCRトレーニング
- Authors: Jan Koh\'ut, Michal Hradi\v{s}
- Abstract要約: Transcription Style Block (TSB) による既存のテキスト認識ネットワーク拡張を提案する。
TSBは、転写規則の明確な知識なしに、複数の転写スタイルを切り替えるデータから学ぶことができます。
TSBは、人工データに対する制御実験において、完全に異なる転写様式を学習できることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users of OCR systems, from different institutions and scientific disciplines,
prefer and produce different transcription styles. This presents a problem for
training of consistent text recognition neural networks on real-world data. We
propose to extend existing text recognition networks with a Transcription Style
Block (TSB) which can learn from data to switch between multiple transcription
styles without any explicit knowledge of transcription rules. TSB is an
adaptive instance normalization conditioned by identifiers representing
consistently transcribed documents (e.g. single document, documents by a single
transcriber, or an institution). We show that TSB is able to learn completely
different transcription styles in controlled experiments on artificial data, it
improves text recognition accuracy on large-scale real-world data, and it
learns semantically meaningful transcription style embedding. We also show how
TSB can efficiently adapt to transcription styles of new documents from
transcriptions of only a few text lines.
- Abstract(参考訳): 異なる機関や科学分野からのOCRシステムのユーザーは、異なる転写スタイルを好み、生成します。
これにより、実世界のデータに基づく一貫したテキスト認識ニューラルネットワークのトレーニングに問題がある。
本論文では,既存のテキスト認識ネットワークを,データから学習して複数の転写スタイルを切り替えることができる転写スタイルブロック(Transcription Style Block,TSB)で拡張することを提案する。
TSBは、一貫性のある転写文書(例えば)を表す識別子によって条件づけられた適応インスタンス正規化である。
単一の文書、単一の翻訳者による文書、または機関)。
TSBは、人工データを用いた制御実験において、全く異なる書き起こしスタイルを学習できることを示し、大規模な実世界のデータにおけるテキスト認識精度を改善し、意味的に意味のある書き起こしスタイルの埋め込みを学習する。
また、TSBは、テキスト行数行の転写から新しい文書の転写スタイルに効率的に適応する方法も示します。
関連論文リスト
- Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - End-to-End Rich Transcription-Style Automatic Speech Recognition with
Semi-Supervised Learning [28.516240952627076]
本稿では,RT-ASRシステムを構築するための半教師付き学習手法を提案する。
私たちの学習における重要なプロセスは、一般的な転写スタイルのデータセットを擬似リッチな転写スタイルのデータセットに変換することです。
自発性ASR課題に対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-07-07T12:52:49Z) - Global Rhythm Style Transfer Without Text Transcriptions [98.09972075975976]
韻律は、話者や感情のスタイルを特徴づける上で重要な役割を果たしている。
ほとんどの非並列音声や感情スタイルの転送アルゴリズムは韻律情報を変換しない。
テキストの書き起こしに頼らずに、グローバルな韻律スタイルを音声から切り離すことができるAutoPSTを提案する。
論文 参考訳(メタデータ) (2021-06-16T02:21:00Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。