Fugu-MT 論文翻訳(概要): Automated Transcription of Non-Latin Script Periodicals: A Case Study in the Ottoman Turkish Print Archive

論文の概要: Automated Transcription of Non-Latin Script Periodicals: A Case Study in the Ottoman Turkish Print Archive

arxiv url: http://arxiv.org/abs/2011.01139v1
Date: Mon, 2 Nov 2020 17:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 12:07:18.169854
Title: Automated Transcription of Non-Latin Script Periodicals: A Case Study in the Ottoman Turkish Print Archive
Title（参考訳）: 非ラテン文字定期刊行物の自動転写--トルコの印刷アーカイブを事例として
Authors: Suphan Kirmizialtin, David Wrisley
Abstract要約: 本研究では,トランスクリバスプラットフォームを用いて,アラビア文字のオスマン文字(OT)で書かれた定期文字の自動書き起こしに深層学習手法を用いた。我々は、OTテキストコレクションの歴史的状況と、20世紀後半のコーパスデジタル化からどのように除外されたかについて論じる。この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our study utilizes deep learning methods for the automated transcription of late nineteenth- and early twentieth-century periodicals written in Arabic script Ottoman Turkish (OT) using the Transkribus platform. We discuss the historical situation of OT text collections and how they were excluded for the most part from the late twentieth century corpora digitization that took place in many Latin script languages. This exclusion has two basic reasons: the technical challenges of OCR for Arabic script languages, and the rapid abandonment of that very script in the Turkish historical context. In the specific case of OT, opening periodical collections to digital tools require training HTR models to generate transcriptions in the Latin writing system of contemporary readers of Turkish, and not, as some may expect, in right-to-left Arabic script text. In the paper we discuss the challenges of training such models where one-to-one correspondence between the writing systems do not exist, and we report results based on our HTR experiments with two OT periodicals from the early twentieth century. Finally, we reflect on potential domain bias of HTR models in historical languages exhibiting spatio-temporal variance as well as the significance of working between writing systems for language communities that have experienced language reform and script change.
Abstract（参考訳）: 本研究は,19世紀後半から20世紀前半にかけて,トランスクリバスプラットフォームを用いてアラビア語のトルコ語(ot)で書かれた定期刊行物の自動書き起こしに深層学習手法を用いる。我々は、otテキストコレクションの歴史的状況と、それが多くのラテン文字言語で起こった20世紀後半のコーポラデジタル化からほとんど排除された経緯について論じる。この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。 OTの特定の場合において、デジタルツールに定期的なコレクションを開くには、トルコの現代の読者のラテン文字システムで文字を生成するために、HTRモデルを訓練する必要がある。本稿では,20世紀初頭の2つのOT周期を用いたHTR実験に基づいて,書記システム間の一対一対応が存在しないようなモデルを訓練する上での課題について論じる。最後に、時空間差を示す歴史言語におけるHTRモデルの潜在的なドメインバイアスと、言語改革とスクリプト変更を経験した言語コミュニティのための記述システム間の作業の重要性を考察する。

関連論文リスト

Automatic Classification of Arabic Literature into Historical Eras [2.3419031955865517]
本稿では、ニューラルネットワークとディープラーニング技術を用いて、アラビア語のテキストを異なる時代と時代に自動的に分類する。提案モデルは、2つの公用コーパスから得られた2つのデータセットを用いて評価され、イスラム以前のテキストから現代までのテキストをカバーしている。結果は、OpenITIデータセットとAPCDデータセットを使用してバイナリ時代の分類タスクにおいて、それぞれ0.83と0.79のF1スコアから変化している。
論文参考訳（メタデータ） (2026-01-22T17:32:19Z)
Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification [66.69370876902222]
本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
論文参考訳（メタデータ） (2025-07-21T12:38:07Z)
ParsiPy: NLP Toolkit for Historical Persian Texts in Python [1.637832760977605]
この研究は、音声の書き起こしを処理し、古代のテキストを分析するためのNLPツールキットであるParsiPyを導入している。 ParsiPyは、トークン化、補題化、音声タグ付け、音素から音素への変換、単語の埋め込みのためのモジュールを提供する。
論文参考訳（メタデータ） (2025-03-22T16:21:29Z)
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models [0.0]
本稿では,歴史的トルコ語の自然言語処理(NLP)の基礎資源とモデルを紹介する。トルコ語の歴史形式として、最初の名前付きエンティティ認識(NER)データセットHisTRと、最初のUniversal DependenciesツリーバンクであるOTA-BOUNを提示する。我々はまた、翻訳された歴史的トルコ語テキストのクリーンコーパスであるオスマンテキストコーパス(OTC)についても紹介する。
論文参考訳（メタデータ） (2025-01-08T20:29:00Z)
Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Detecting Turkish Synonyms Used in Different Time Periods [0.0]
トルコ語は20世紀の言語改革による言語変化の顕著な例である。本稿では,トルコ語に焦点をあてて,異なる期間に使用される同義語を検出する2つの方法を提案する。
論文参考訳（メタデータ） (2024-11-24T09:31:38Z)
Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset [1.174020933567308]
本稿では,手書きシリア語テキストに基づく光学文字認識(OCR)モデルの開発を目的とした研究プロジェクトについて報告する。データセットKHAMISは、東シリア文字で手書きの文からなる。データは、KHAMISを作成するために言語で読み書きできるボランティアから収集された。手書きのOCRモデルは、トレーニングセットと評価セットの両方で1.097-1.610%と8.963-10.490%の文字誤り率を達成することができた。
論文参考訳（メタデータ） (2024-08-24T17:17:46Z)
Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-02T14:51:20Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language [0.0]
1923年のトゥルキイェの設立以来のトルコ語の進化を考察する。分析の結果、2つの異なる期間の語彙は、その間の時間が増えるにつれて、より多様になることが明らかとなった。特に「-b」と「-d」の語尾が「-p」と「-t」に置き換わる。
論文参考訳（メタデータ） (2024-05-16T14:31:07Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts -- Managing an Under-resourced Script [0.0]
アラビア文字Maghrib=iスクリプト専用のHTRモデル開発および微調整のための新しいモードオペラーディを導入・評価する。いくつかの最先端のHTRモデルの比較は、アラビア語に特化した単語ベースのニューラルアプローチの関連性を示している。その結果、アラビア文字処理のための新しい視点が開かれ、より一般的には、貧弱な言語処理のためのものである。
論文参考訳（メタデータ） (2022-11-29T12:21:41Z)
Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。自然言語処理(NLP)の状況に注目する。ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文参考訳（メタデータ） (2022-10-21T21:59:44Z)
HUE: Pretrained Model and Dataset for Understanding Hanja Documents of Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文参考訳（メタデータ） (2022-10-11T03:04:28Z)
Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文参考訳（メタデータ） (2021-01-26T13:00:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。