論文の概要: AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models
- arxiv url: http://arxiv.org/abs/2604.20996v1
- Date: Wed, 22 Apr 2026 18:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.132295
- Title: AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models
- Title(参考訳): AFRILANGTUTOR:大規模言語モデルを用いた低リソース言語における言語学習と文化教育の促進
- Authors: Tadesse Destaw Belay, Shahriar Kabir Nahin, Israel Abebe Azime, Ocean Monjur, Shamsuddeen Hassan Muhammad, Seid Muhie Yimam, Anshuman Chhabra,
- Abstract要約: Supervised Fine-Tuning (SFT) と Direct Preference Optimization (DPO) のための78.9Kマルチターントレーニング例のデータセットを構築した。
10のアフリカ語でAFRILangeduと呼ばれる言語学習モデルを訓練する。
以上の結果から, AFRILangedu でトレーニングしたモデルは, ベースモデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 12.74993793082974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can language learning systems be developed for languages that lack sufficient training resources? This challenge is increasingly faced by developers across the African continent who aim to build AI systems capable of understanding and responding in local languages. To address this gap, we introduce AFRILANGDICT, a collection of 194.7K African language-English dictionary entries designed as seed resources for generating language-learning materials, enabling us to automatically construct large-scale, diverse, and verifiable student-tutor question-answer interactions suitable for training AI-assisted language tutors. Using AFRILANGDICT, we build AFRILANGEDU, a dataset of 78.9K multi-turn training examples for Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO). Using AFRILANGEDU, we train language tutoring models collectively referred to as AFRILANGTUTOR. We fine-tune two multilingual LLMs: Llama-3-8B-IT and Gemma-3-12B-IT on AFRILANGEDU across 10 African languages and evaluate their performance. Our results show that models trained on AFRILANGEDU consistently outperform their base counterparts, and combining SFT and DPO yields substantial improvements, with gains ranging from 1.8% to 15.5% under LLM-as-a-judge evaluations across four criteria. To facilitate further research on low-resource languages -- all resources are available at https://huggingface.co/afrilang-edu.
- Abstract(参考訳): 十分なトレーニングリソースを持たない言語に対して、言語学習システムをどうやって開発できるのか?
この課題は、現地の言語で理解と対応が可能なAIシステムの構築を目指すアフリカ大陸の開発者によって、ますます直面している。
このギャップに対処するために、AFRILANGDICTは、言語学習教材を生成するためのシードリソースとして設計された194.7Kのアフリカ語英辞典のコレクションであり、AI支援言語教師の訓練に適した大規模、多様、検証可能な学生-教師間の対話を自動的に構築することを可能にする。
AFRILANGEDUは,SFT(Supervised Fine-Tuning)とDPO(Direct Preference Optimization)のための78.9Kマルチターントレーニングデータセットである。
AFRILANGEDUを用いて、AFRILANGTUTORと呼ばれる言語学習モデルを訓練する。
AFRILANGEDU上でのLlama-3-8B-ITとGemma-3-12B-ITの2つの多言語LLMの微調整を行い,その性能評価を行った。
以上の結果から, AFRILANGEDU をトレーニングしたモデルは, ベースモデルよりも一貫して優れており, SFT と DPO を組み合わせることで, 4つの基準における LLM-as-a-judge 評価において, 1.8% から 15.5% の利得が得られた。
低リソース言語に関するさらなる研究を容易にするため、すべてのリソースはhttps://huggingface.co/afrilang-edu.comで入手できる。
関連論文リスト
- Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - Masakhane-Afrisenti at SemEval-2023 Task 12: Sentiment Analysis using
Afro-centric Language Models and Adapters for Low-resource African Languages [0.0]
この課題は、アフリカの12言語に対する単言語感情分類(サブタスクA)、多言語感情分類(サブタスクB)、ゼロショット感情分類(タスクC)の実施を目的とする。
その結果, 事前学習したアフロ中心言語モデルを用いることで, 低資源アフリカ言語の性能が向上することが示唆された。
また,ゼロショットタスク用のアダプタを用いた実験を行った結果,限られたリソースしか持たないアダプタを用いて,有望な結果が得られることが示唆された。
論文 参考訳(メタデータ) (2023-04-13T12:54:29Z) - AfroLM: A Self-Active Learning-based Multilingual Pretrained Language
Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。
AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。
様々な領域にまたがってうまく一般化することができる。
論文 参考訳(メタデータ) (2022-11-07T02:15:25Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。