論文の概要: LakotaBERT: A Transformer-based Model for Low Resource Lakota Language
- arxiv url: http://arxiv.org/abs/2503.18212v1
- Date: Sun, 23 Mar 2025 21:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:57.841757
- Title: LakotaBERT: A Transformer-based Model for Low Resource Lakota Language
- Title(参考訳): LakotaBERT:低リソースなLakota言語のためのトランスフォーマーベースモデル
- Authors: Kanishka Parankusham, Rodrigue Rizk, KC Santosh,
- Abstract要約: 北米のスー族の言語であるラコタは、流行の減少によって大きな課題に直面している。
本稿では,Lakota用に設計された最初の大規模言語モデル(LLM)であるLakotaBERTを紹介する。
- 参考スコア(独自算出の注目度): 3.532703818003108
- License:
- Abstract: Lakota, a critically endangered language of the Sioux people in North America, faces significant challenges due to declining fluency among younger generations. This paper introduces LakotaBERT, the first large language model (LLM) tailored for Lakota, aiming to support language revitalization efforts. Our research has two primary objectives: (1) to create a comprehensive Lakota language corpus and (2) to develop a customized LLM for Lakota. We compiled a diverse corpus of 105K sentences in Lakota, English, and parallel texts from various sources, such as books and websites, emphasizing the cultural significance and historical context of the Lakota language. Utilizing the RoBERTa architecture, we pre-trained our model and conducted comparative evaluations against established models such as RoBERTa, BERT, and multilingual BERT. Initial results demonstrate a masked language modeling accuracy of 51% with a single ground truth assumption, showcasing performance comparable to that of English-based models. We also evaluated the model using additional metrics, such as precision and F1 score, to provide a comprehensive assessment of its capabilities. By integrating AI and linguistic methodologies, we aspire to enhance linguistic diversity and cultural resilience, setting a valuable precedent for leveraging technology in the revitalization of other endangered indigenous languages.
- Abstract(参考訳): 北米のスー族の言語であるラコタは、若い世代の間で流行が減少しているため、重大な課題に直面している。
本稿では,Lakota用に開発された最初の大規模言語モデル(LLM)であるLakotaBERTを紹介する。
本研究は,(1)包括的ラコタ語コーパスを作成すること,(2)ラコタ語用にカスタマイズされたLLMを開発すること,の2つの目的を有する。
我々は、ラコタ語の文化的意義と歴史的文脈を強調するために、ラコタ語、英語、および様々な資料から105K文の多種多様なコーパスを編纂した。
また,RoBERTaアーキテクチャを用いて事前学習を行い,RoBERTa,BERT,多言語BERTといった既存のモデルとの比較評価を行った。
最初の結果は、英語モデルに匹敵する性能を示しながら、単一の真実の仮定で51%のマスク付き言語モデリング精度を示す。
また、精度やF1スコアなどの追加指標を用いてモデルの評価を行い、その能力を総合的に評価した。
AIと言語方法論を統合することで、言語多様性と文化的レジリエンスを高めることを目指しており、他の絶滅危惧言語の再活性化にテクノロジーを活用するための貴重な先例となる。
関連論文リスト
- CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages [1.9263811967110864]
本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。
多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。
4つの言語で最先端のパフォーマンスを実証し、バスク語で第1位、イタリア語で第2位、英語とスペイン語で第3位にランク付けしました。
論文 参考訳(メタデータ) (2025-01-01T03:36:31Z) - Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities [2.047424180164312]
Hebrewのような低リソース言語での大規模言語モデル(LLM)のトレーニングには、ユニークな課題がある。
我々はDictaLM2.0とDictaLM2.0-Instructを紹介した。
論文 参考訳(メタデータ) (2024-07-09T17:51:37Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Open Generative Large Language Models for Galician [1.3049334790726996]
大規模言語モデル(LLM)は自然言語処理に変化をもたらした。
しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。
この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。
このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。
論文 参考訳(メタデータ) (2024-06-19T23:49:56Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。