論文の概要: Automated Transcription of Non-Latin Script Periodicals: A Case Study in
the Ottoman Turkish Print Archive
- arxiv url: http://arxiv.org/abs/2011.01139v1
- Date: Mon, 2 Nov 2020 17:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:07:18.169854
- Title: Automated Transcription of Non-Latin Script Periodicals: A Case Study in
the Ottoman Turkish Print Archive
- Title(参考訳): 非ラテン文字定期刊行物の自動転写--トルコの印刷アーカイブを事例として
- Authors: Suphan Kirmizialtin, David Wrisley
- Abstract要約: 本研究では,トランスクリバスプラットフォームを用いて,アラビア文字のオスマン文字(OT)で書かれた定期文字の自動書き起こしに深層学習手法を用いた。
我々は、OTテキストコレクションの歴史的状況と、20世紀後半のコーパスデジタル化からどのように除外されたかについて論じる。
この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our study utilizes deep learning methods for the automated transcription of
late nineteenth- and early twentieth-century periodicals written in Arabic
script Ottoman Turkish (OT) using the Transkribus platform. We discuss the
historical situation of OT text collections and how they were excluded for the
most part from the late twentieth century corpora digitization that took place
in many Latin script languages. This exclusion has two basic reasons: the
technical challenges of OCR for Arabic script languages, and the rapid
abandonment of that very script in the Turkish historical context. In the
specific case of OT, opening periodical collections to digital tools require
training HTR models to generate transcriptions in the Latin writing system of
contemporary readers of Turkish, and not, as some may expect, in right-to-left
Arabic script text. In the paper we discuss the challenges of training such
models where one-to-one correspondence between the writing systems do not
exist, and we report results based on our HTR experiments with two OT
periodicals from the early twentieth century. Finally, we reflect on potential
domain bias of HTR models in historical languages exhibiting spatio-temporal
variance as well as the significance of working between writing systems for
language communities that have experienced language reform and script change.
- Abstract(参考訳): 本研究は,19世紀後半から20世紀前半にかけて,トランスクリバスプラットフォームを用いてアラビア語のトルコ語(ot)で書かれた定期刊行物の自動書き起こしに深層学習手法を用いる。
我々は、otテキストコレクションの歴史的状況と、それが多くのラテン文字言語で起こった20世紀後半のコーポラデジタル化からほとんど排除された経緯について論じる。
この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。
OTの特定の場合において、デジタルツールに定期的なコレクションを開くには、トルコの現代の読者のラテン文字システムで文字を生成するために、HTRモデルを訓練する必要がある。
本稿では,20世紀初頭の2つのOT周期を用いたHTR実験に基づいて,書記システム間の一対一対応が存在しないようなモデルを訓練する上での課題について論じる。
最後に、時空間差を示す歴史言語におけるHTRモデルの潜在的なドメインバイアスと、言語改革とスクリプト変更を経験した言語コミュニティのための記述システム間の作業の重要性を考察する。
関連論文リスト
- Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Multilingual Text-to-Speech Synthesis for Turkic Languages Using
Transliteration [3.0122461286351796]
本研究の目的は,低リソースのトルコ語10言語を対象とした多言語テキスト音声合成システムの構築である。
ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。
Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。
論文 参考訳(メタデータ) (2023-05-25T05:57:54Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts
-- Managing an Under-resourced Script [0.0]
アラビア文字Maghrib=iスクリプト専用のHTRモデル開発および微調整のための新しいモードオペラーディを導入・評価する。
いくつかの最先端のHTRモデルの比較は、アラビア語に特化した単語ベースのニューラルアプローチの関連性を示している。
その結果、アラビア文字処理のための新しい視点が開かれ、より一般的には、貧弱な言語処理のためのものである。
論文 参考訳(メタデータ) (2022-11-29T12:21:41Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。