論文の概要: Corpus-Based Approaches to Igbo Diacritic Restoration
- arxiv url: http://arxiv.org/abs/2601.18380v1
- Date: Mon, 26 Jan 2026 11:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.797087
- Title: Corpus-Based Approaches to Igbo Diacritic Restoration
- Title(参考訳): コーパスに基づくIgboダイアクリティカルリカバリへのアプローチ
- Authors: Ignatius Ezeani,
- Abstract要約: 自然言語を処理するコンピュータの能力は、NLP研究者がその境界を押し進めているため、増大している。
世界の7000言語のうち95%以上がNLPのために低リソースであり、NLP作業のためのデータ、ツール、技術はほとんど、あるいは全く持っていない。
ダイアクリティカルな曖昧さの概観と、他の言語に対する以前のダイアクリティカルな曖昧さのアプローチの見直しについて述べる。
- 参考スコア(独自算出の注目度): 0.23552726065717702
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With natural language processing (NLP), researchers aim to enable computers to identify and understand patterns in human languages. This is often difficult because a language embeds many dynamic and varied properties in its syntax, pragmatics and phonology, which need to be captured and processed. The capacity of computers to process natural languages is increasing because NLP researchers are pushing its boundaries. But these research works focus more on well-resourced languages such as English, Japanese, German, French, Russian, Mandarin Chinese, etc. Over 95% of the world's 7000 languages are low-resourced for NLP, i.e. they have little or no data, tools, and techniques for NLP work. In this thesis, we present an overview of diacritic ambiguity and a review of previous diacritic disambiguation approaches on other languages. Focusing on the Igbo language, we report the steps taken to develop a flexible framework for generating datasets for diacritic restoration. Three main approaches, the standard n-gram model, the classification models and the embedding models were proposed. The standard n-gram models use a sequence of previous words to the target stripped word as key predictors of the correct variants. For the classification models, a window of words on both sides of the target stripped word was used. The embedding models compare the similarity scores of the combined context word embeddings and the embeddings of each of the candidate variant vectors.
- Abstract(参考訳): 自然言語処理(NLP)により、研究者はコンピュータが人間の言語のパターンを識別し理解できるようにすることを目指している。
言語はその構文、プラグマティクス、音韻学に多くの動的で多様な特性を組み込んでおり、それをキャプチャして処理する必要があるため、これはしばしば困難である。
自然言語を処理するコンピュータの能力は、NLP研究者がその境界を押し進めているため、増大している。
しかし、これらの研究は、英語、日本語、ドイツ語、フランス語、ロシア語、中国語、中国語など、より資料の豊富な言語に焦点を当てている。
世界の7000言語のうち95%以上がNLPのために低リソースであり、NLP作業のためのデータ、ツール、技術はほとんど、あるいは全く持っていない。
本論では, ダイアクリティカルな曖昧さの概観と, 他の言語に対する従来のダイアクリティカルな曖昧さのアプローチの見直しについて述べる。
本稿では,Igbo言語に着目し,対話的復元のためのデータセット生成のためのフレキシブルなフレームワークを開発するための手順を報告する。
標準n-gramモデル,分類モデル,埋め込みモデルの3つの主要なアプローチが提案された。
標準のn-gramモデルは、ターゲットのストリップされた単語に対する前の単語のシーケンスを、正しい変種の主要な予測子として使用する。
分類モデルでは,対象単語の両側に単語のウィンドウを用いた。
埋め込みモデルは、組み合わせた文脈語埋め込みの類似度スコアと、候補となる変動ベクトルのそれぞれを埋め込みと比較する。
関連論文リスト
- NLP Datasets for Idiom and Figurative Language Tasks [0.674975004449773]
慣用的で比喩的な言語は、口語と文章の大部分を形成します。
ソーシャルメディアでは、この非公式言語は、大きな言語モデル(LLM)の人やトレーナーにとって、より容易に観測可能になっている。
微調整アプローチは最適であることが証明されているが、より優れた、より大規模なデータセットは、このギャップをさらに狭めるのに役立つ。
論文 参考訳(メタデータ) (2025-11-20T13:28:05Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。