論文の概要: BabyLMs for isiXhosa: Data-Efficient Language Modelling in a Low-Resource Context
- arxiv url: http://arxiv.org/abs/2501.03855v1
- Date: Tue, 07 Jan 2025 15:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 16:58:03.074496
- Title: BabyLMs for isiXhosa: Data-Efficient Language Modelling in a Low-Resource Context
- Title(参考訳): IsiXhosaのBabyLM:低リソースコンテキストにおけるデータ効率な言語モデリング
- Authors: Alexis Matzopoulos, Charl Hendriks, Hishaam Mahomed, Francois Meyer,
- Abstract要約: BabyLMの課題は、参加者にサンプル効率の良い言語モデルを開発することであった。
申請は、子供が開発中に露出する単語の量に制限される、固定された英語コーパスで事前訓練された。
データ効率のよい言語モデリングのための新しいアーキテクチャは、数兆ワードで訓練されたモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 2.57490464660469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The BabyLM challenge called on participants to develop sample-efficient language models. Submissions were pretrained on a fixed English corpus, limited to the amount of words children are exposed to in development (<100m). The challenge produced new architectures for data-efficient language modelling, which outperformed models trained on trillions of words. This is promising for low-resource languages, where available corpora are limited to much less than 100m words. In this paper, we explore the potential of BabyLMs for low-resource languages, using the isiXhosa language as a case study. We pretrain two BabyLM architectures, ELC-BERT and MLSM, on an isiXhosa corpus. They outperform a vanilla pretrained model on POS tagging and NER, achieving notable gains (+3.2 F1) for the latter. In some instances, the BabyLMs even outperform XLM-R. Our findings show that data-efficient models are viable for low-resource languages, but highlight the continued importance, and lack of, high-quality pretraining data. Finally, we visually analyse how BabyLM architectures encode isiXhosa.
- Abstract(参考訳): BabyLMの課題は、参加者がサンプル効率の良い言語モデルを開発することであった。
授業は英語の定型コーパスで事前訓練され、子どもが発達中に露出する単語の量(100m)に制限された。
この挑戦はデータ効率のよい言語モデリングのための新しいアーキテクチャを生み出し、それは数兆の単語で訓練されたモデルよりも優れていた。
これは、利用可能なコーパスが1億ワード未満に制限される低リソース言語に対して有望である。
本稿では、isiXhosa言語をケーススタディとして、低リソース言語に対するBabyLMsの可能性について検討する。
我々は,isiXhosa corpus 上で,2つの BabyLM アーキテクチャである ELC-BERT と MLSM を事前訓練する。
POSタグとNERのバニラ事前訓練モデルよりも優れており、後者では顕著な利得(+3.2 F1)を達成している。
いくつかの例では、BabyLMはXLM-Rよりも優れていた。
その結果、低リソース言語ではデータ効率のモデルが有効であるが、継続する重要性と、高品質な事前学習データの欠如が浮き彫りになっていることがわかった。
最後に、BabyLMアーキテクチャがどのようにisiXhosaをエンコードしているかを視覚的に分析する。
関連論文リスト
- Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning [2.565964707090901]
我々は,従来の大規模言語モデル (LLM) と比較して,データ量が大幅に少ない様々な言語モデル(LM)を訓練する手法を用いている。
そこで本研究では,主に児童向け文字起こしから得られた1000万語からなるキュレートデータセットに基づいて学習したモデルを構築した。
我々は語彙を32,000のトークンに減らし、言語習得の初期段階の子供たちの限られた語彙と整合させる。
論文 参考訳(メタデータ) (2025-03-06T16:57:26Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Automatic Speech Recognition for the Ika Language [0.0]
IkaのNew Testament Bible Multilingualから収集した高品質な音声データセット上で、事前学習したwav2vec 2.0の大規模翻訳を行う。
この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。
論文 参考訳(メタデータ) (2024-10-01T11:56:42Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models [3.1244568065126863]
より小さな"ベイビー"言語モデル(BabyLM)を効率的に学習する"CoThought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを使って1億以下のデータセットを再構成し、タスク指向のヒューマン可読テキストに変換する。
私たちのBabyLMは、言語、NLU、質問応答タスクにおいて、バニラRoBERTaよりも3ポイント以上優れています。
論文 参考訳(メタデータ) (2023-08-03T10:52:52Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。