論文の概要: Diacritic Restoration for Low-Resource Indigenous Languages: Case Study with Bribri and Cook Islands Māori
- arxiv url: http://arxiv.org/abs/2512.19630v1
- Date: Mon, 22 Dec 2025 18:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.870045
- Title: Diacritic Restoration for Low-Resource Indigenous Languages: Case Study with Bribri and Cook Islands Māori
- Title(参考訳): 低資源内在言語に対するダイアクリティカルな復元:ブリブリ島とクック諸島マオリ島を事例として
- Authors: Rolando Coto-Solano, Daisy Li, Manoela Teleginski Ferraz, Olivia Sasse, Cha Krupka, Sharid Loáiciga, Sally Akevai Tenamu Nicholas,
- Abstract要約: 本稿では,自然言語処理(NLP)タスクに不可欠なテキスト正規化の形式であるダイアクリティカル修復の実験を行う。
本研究は,コスタ・リカで話されるチブチャン語であるブリブリ語と,クック諸島で話されるポリネシア語であるモリ語に焦点をあてる。
- 参考スコア(独自算出の注目度): 2.1900575893223526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present experiments on diacritic restoration, a form of text normalization essential for natural language processing (NLP) tasks. Our study focuses on two extremely under-resourced languages: Bribri, a Chibchan language spoken in Costa Rica, and Cook Islands Māori, a Polynesian language spoken in the Cook Islands. Specifically, this paper: (i) compares algorithms for diacritics restoration in under-resourced languages, including tonal diacritics, (ii) examines the amount of data required to achieve target performance levels, (iii) contrasts results across varying resource conditions, and (iv) explores the related task of diacritic correction. We find that fine-tuned, character-level LLMs perform best, likely due to their ability to decompose complex characters into their UTF-8 byte representations. In contrast, massively multilingual models perform less effectively given our data constraints. Across all models, reliable performance begins to emerge with data budgets of around 10,000 words. Zero-shot approaches perform poorly in all cases. This study responds both to requests from the language communities and to broader NLP research questions concerning model performance and generalization in under-resourced contexts.
- Abstract(参考訳): 本稿では,自然言語処理(NLP)タスクに不可欠なテキスト正規化の形式であるダイアクリティカル修復の実験を行う。
本研究は,コスタ・リカで話されるチブチャン語であるブリブリ語と,クック諸島で話されるポリネシア語であるマオリ語であるクック諸島のマオリ語である。
特にこの論文は
(i)音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節音節
(ii)目標性能レベルを達成するために必要なデータ量を調べる。
三 様々な資源条件にまたがる結果と対比し、
(4)ダイアクリティカル・リコメンデーションの課題を探求する。
我々は、複雑な文字をUTF-8バイトの表現に分解する能力により、微調整された文字レベルのLLMが、おそらく最高の性能を発揮することを発見した。
対照的に、我々のデータ制約を考えると、大規模多言語モデルは効率が悪くなります。
すべてのモデルにおいて、信頼性の高いパフォーマンスが出現し始めており、データ予算は約1万ワードである。
ゼロショットアプローチは、すべてのケースでパフォーマンスが悪くなります。
本研究は,言語コミュニティからの要望に答えるとともに,低リソース環境におけるモデル性能と一般化に関するより広範なNLP研究の疑問に答える。
関連論文リスト
- Evaluating Robustness of Large Language Models Against Multilingual Typographical Errors [45.37878669586302]
大規模言語モデル(LLM)は、ユーザ入力を持つマルチリンガルな実世界のアプリケーションにますます多くデプロイされている。
ほとんどのベンチマークはクリーンな入力を前提としており、LLMの堅牢性は、ほとんど探索されていないタイプミスに委ねられている。
MulTypoは,言語固有のキーボードレイアウトとタイピング行動に基づいて,ヒューマンライクなエラーをシミュレートする多言語型タイポ生成アルゴリズムである。
論文 参考訳(メタデータ) (2025-10-10T16:49:12Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。