論文の概要: Filling the Gap for Uzbek: Creating Translation Resources for Southern Uzbek
- arxiv url: http://arxiv.org/abs/2508.14586v1
- Date: Wed, 20 Aug 2025 10:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.423262
- Title: Filling the Gap for Uzbek: Creating Translation Resources for Southern Uzbek
- Title(参考訳): ウズベクのギャップを埋める - ウズベク南部の翻訳資源を作る
- Authors: Mukhammadsaid Mamasaidov, Azizullah Aral, Abror Shopulatov, Mironshoh Inomjonov,
- Abstract要約: 南ウズベク語(南ウズベク語、英: Southern Uzbek)は、アフガニスタンの約500万人が話しているテュルク語族である。
多くの話者がいるにもかかわらず、南部ウズベク語は自然言語処理では不十分である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Southern Uzbek (uzs) is a Turkic language variety spoken by around 5 million people in Afghanistan and differs significantly from Northern Uzbek (uzn) in phonology, lexicon, and orthography. Despite the large number of speakers, Southern Uzbek is underrepresented in natural language processing. We present new resources for Southern Uzbek machine translation, including a 997-sentence FLORES+ dev set, 39,994 parallel sentences from dictionary, literary, and web sources, and a fine-tuned NLLB-200 model (lutfiy). We also propose a post-processing method for restoring Arabic-script half-space characters, which improves handling of morphological boundaries. All datasets, models, and tools are released publicly to support future work on Southern Uzbek and other low-resource languages.
- Abstract(参考訳): 南ウズベク語(南ウズベク語、英: Southern Uzbek)は、アフガニスタンで約500万人が話しており、音韻学、語彙学、正書法において北ウズベク語と大きく異なる言語である。
多くの話者がいるにもかかわらず、南部ウズベク語は自然言語処理では不十分である。
我々は,997文のFLORES+デベロップメントセット,辞書,文,Webソースからの39,994のパラレル文,微調整されたNLLB-200モデル(lutfiy)など,南ウズベク語機械翻訳のための新たなリソースを提示する。
また、アラビア文字の半空間文字を復元するための後処理手法を提案し、形態的境界の扱いを改善する。
すべてのデータセット、モデル、ツールが公開され、南ウズベクや他の低リソース言語での今後の作業をサポートする。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Approaches to Corpus Creation for Low-Resource Language Technology: the
Case of Southern Kurdish and Laki [29.27024733066261]
このような表現不足言語,特に書込みや標準化における課題について述べる。
また、クルド語やザザ・ゴラーニ語の他の変種に照らして、言語識別の課題についても検討する。
論文 参考訳(メタデータ) (2023-04-03T19:36:32Z) - Optical Character Recognition and Transcription of Berber Signs from
Images in a Low-Resource Language Amazigh [2.132096006921048]
バーバー語族(英: Berber language)またはアマージー語族(英: Amazigh language family)は、北アフリカ原住民の言語である。
独自のアルファベットはティフィナグ(Tifinagh)と呼ばれ、モロッコ、アルジェリアなどのベルベルのコミュニティで使用されている。
Afroasiatic Language Berberは1400万人が話しているが、教育、研究、Webアプリケーションなどには十分な表現がない。
論文 参考訳(メタデータ) (2023-03-21T21:38:44Z) - UzbekTagger: The rule-based POS tagger for Uzbek language [0.0]
本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
論文 参考訳(メタデータ) (2023-01-30T07:40:45Z) - UzbekStemmer: Development of a Rule-Based Stemming Algorithm for Uzbek
Language [0.0]
ウズベク語に対する規則に基づくスリーミングアルゴリズムを提案する。
この手法はウズベク語の単語をアフィクスストリッピングアプローチで綴じることを目的として提案されている。
XML形式の接尾辞の辞書が作成され、FSMに基づいてウズベク語を綴じるアプリケーションが開発されている。
論文 参考訳(メタデータ) (2022-10-28T09:29:22Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Morphosyntactic Tagging with Pre-trained Language Models for Arabic and
its Dialects [17.063334758301902]
本研究は、アラビア語の様々な種類にまたがるモルフォシンタクティックなタグ付けについて、微調整された事前学習言語モデルを用いて最新の結果を示す。
私たちのモデルは、現代標準アラビア語の既存のシステムと、我々が研究しているすべてのアラビア方言を一貫して上回ります。
論文 参考訳(メタデータ) (2021-10-13T16:43:44Z) - Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。
翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (2021-09-01T16:57:58Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。