論文の概要: Automated Transcription of Non-Latin Script Periodicals: A Case Study in
the Ottoman Turkish Print Archive
- arxiv url: http://arxiv.org/abs/2011.01139v1
- Date: Mon, 2 Nov 2020 17:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:07:18.169854
- Title: Automated Transcription of Non-Latin Script Periodicals: A Case Study in
the Ottoman Turkish Print Archive
- Title(参考訳): 非ラテン文字定期刊行物の自動転写--トルコの印刷アーカイブを事例として
- Authors: Suphan Kirmizialtin, David Wrisley
- Abstract要約: 本研究では,トランスクリバスプラットフォームを用いて,アラビア文字のオスマン文字(OT)で書かれた定期文字の自動書き起こしに深層学習手法を用いた。
我々は、OTテキストコレクションの歴史的状況と、20世紀後半のコーパスデジタル化からどのように除外されたかについて論じる。
この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our study utilizes deep learning methods for the automated transcription of
late nineteenth- and early twentieth-century periodicals written in Arabic
script Ottoman Turkish (OT) using the Transkribus platform. We discuss the
historical situation of OT text collections and how they were excluded for the
most part from the late twentieth century corpora digitization that took place
in many Latin script languages. This exclusion has two basic reasons: the
technical challenges of OCR for Arabic script languages, and the rapid
abandonment of that very script in the Turkish historical context. In the
specific case of OT, opening periodical collections to digital tools require
training HTR models to generate transcriptions in the Latin writing system of
contemporary readers of Turkish, and not, as some may expect, in right-to-left
Arabic script text. In the paper we discuss the challenges of training such
models where one-to-one correspondence between the writing systems do not
exist, and we report results based on our HTR experiments with two OT
periodicals from the early twentieth century. Finally, we reflect on potential
domain bias of HTR models in historical languages exhibiting spatio-temporal
variance as well as the significance of working between writing systems for
language communities that have experienced language reform and script change.
- Abstract(参考訳): 本研究は,19世紀後半から20世紀前半にかけて,トランスクリバスプラットフォームを用いてアラビア語のトルコ語(ot)で書かれた定期刊行物の自動書き起こしに深層学習手法を用いる。
我々は、otテキストコレクションの歴史的状況と、それが多くのラテン文字言語で起こった20世紀後半のコーポラデジタル化からほとんど排除された経緯について論じる。
この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。
OTの特定の場合において、デジタルツールに定期的なコレクションを開くには、トルコの現代の読者のラテン文字システムで文字を生成するために、HTRモデルを訓練する必要がある。
本稿では,20世紀初頭の2つのOT周期を用いたHTR実験に基づいて,書記システム間の一対一対応が存在しないようなモデルを訓練する上での課題について論じる。
最後に、時空間差を示す歴史言語におけるHTRモデルの潜在的なドメインバイアスと、言語改革とスクリプト変更を経験した言語コミュニティのための記述システム間の作業の重要性を考察する。
関連論文リスト
- Detecting Turkish Synonyms Used in Different Time Periods [0.0]
トルコ語は20世紀の言語改革による言語変化の顕著な例である。
本稿では,トルコ語に焦点をあてて,異なる期間に使用される同義語を検出する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-24T09:31:38Z) - Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset [1.174020933567308]
本稿では,手書きシリア語テキストに基づく光学文字認識(OCR)モデルの開発を目的とした研究プロジェクトについて報告する。
データセットKHAMISは、東シリア文字で手書きの文からなる。
データは、KHAMISを作成するために言語で読み書きできるボランティアから収集された。
手書きのOCRモデルは、トレーニングセットと評価セットの両方で1.097-1.610%と8.963-10.490%の文字誤り率を達成することができた。
論文 参考訳(メタデータ) (2024-08-24T17:17:46Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language [0.0]
1923年のトゥルキイェの設立以来のトルコ語の進化を考察する。
分析の結果、2つの異なる期間の語彙は、その間の時間が増えるにつれて、より多様になることが明らかとなった。
特に「-b」と「-d」の語尾が「-p」と「-t」に置き換わる。
論文 参考訳(メタデータ) (2024-05-16T14:31:07Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts
-- Managing an Under-resourced Script [0.0]
アラビア文字Maghrib=iスクリプト専用のHTRモデル開発および微調整のための新しいモードオペラーディを導入・評価する。
いくつかの最先端のHTRモデルの比較は、アラビア語に特化した単語ベースのニューラルアプローチの関連性を示している。
その結果、アラビア文字処理のための新しい視点が開かれ、より一般的には、貧弱な言語処理のためのものである。
論文 参考訳(メタデータ) (2022-11-29T12:21:41Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。