論文の概要: Sample-Size Scaling of the African Languages NLI Evaluation
- arxiv url: http://arxiv.org/abs/2606.03219v1
- Date: Tue, 02 Jun 2026 06:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.806803
- Title: Sample-Size Scaling of the African Languages NLI Evaluation
- Title(参考訳): アフリカ語NLI評価のサンプルサイズスケーリング
- Authors: Anuj Tiwari, Oluwapelumi Ogunremu, Terry Oko-odion, Jesujuwon Egbewale, Hannah Nwokocha,
- Abstract要約: この研究は、AfriXNLIベンチマークに基づく16のアフリカ言語における自然言語推論(NLI)の体系的なサンプルサイズスケーリング研究である。
約0.6Bパラメータを持つ2つの多言語トランスフォーマーモデル XLM-R Large を XNLI と AfroXLM-R Large で微調整し、50から500のラベル付きサンプルサイズで試験した。
データの増加に伴う単調な増加という通常の信念とは対照的に、強い言語に敏感で、しばしば非単調なスケーリングの振る舞いを見出す。
- 参考スコア(独自算出の注目度): 0.9134244356393665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: African languages have very little labelled data, and it is unclear if augmenting the quantity of annotation data reliably enhances downstream performance. The study is a systematic sample-size scaling study of natural language inference (NLI) on 16 African languages based on the AfriXNLI benchmark. Under controlled conditions, two multilingual transformer models with roughly 0.6B parameters XLM-R Large fine-tuned on XNLI and AfroXLM-R Large are tested on sample sizes of between 50 and 500 labeled examples and average their results across random subsampling runs. As opposed to the usual belief of monotonic increase with increased data, we find a strongly language sensitive and often non-monotonic scaling behavior. Some languages show early saturation or decrease in performance with sample size as well as high variance in low resource regimes. These results indicate that the volume of data is not enough to guarantee stable profits to African NLI, creating the necessity of language sensitive datasets creation and stronger multi-lingual modelling strategies.
- Abstract(参考訳): アフリカの言語にはラベル付きデータはほとんどなく、アノテーションデータの量が下流のパフォーマンスを確実に向上させるかどうかは不明である。
この研究は、AfriXNLIベンチマークに基づく16のアフリカ言語における自然言語推論(NLI)の体系的なサンプルサイズスケーリング研究である。
制御条件下では、XNLI と AfroXLM-R Large で微調整された2つの多言語トランスフォーマーモデルが50から500のラベル付きサンプルのサンプルサイズで試験され、ランダムなサブサンプリングランの平均結果が得られた。
データの増加に伴う単調な増加という通常の信念とは対照的に、強い言語に敏感で、しばしば非単調なスケーリングの振る舞いを見出す。
いくつかの言語では、サンプルサイズによる早期飽和や性能低下、低資源状態における高い分散を示す。
これらの結果から、アフリカにおけるNLIの安定的な利益を保証するには、データの量だけでは不十分であることが示唆され、言語に敏感なデータセットの作成とより強力な多言語モデリング戦略の必要性が生じる。
関連論文リスト
- Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages [39.985923582735936]
FREDの難易度はF(F)、Retrieval Proxy(R)、Pre-training Exposure(E)、Corpus Diversity(D)を含む。
これらの測定結果から、結果のばらつきの大部分は、モデル能力よりも、列車とテストの重複と事前訓練による露光によって説明されていることが分かる。
論文 参考訳(メタデータ) (2026-03-26T09:20:17Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Pre-training a Transformer-Based Generative Model Using a Small Sepedi Dataset [0.5530212768657544]
南アフリカのいくつかのリソースから得られたSepedi monolingual(SepMono)データセットと、ラジオニュースドメインからのSepedi Radio News(SepNews)データセットを使用します。
以上の結果から,非閉塞モデルの方が,検証損失とパープレキシティの測定において,オクルージョンベースモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-25T17:25:06Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。