論文の概要: Mining Large Language Models for Low-Resource Language Data: Comparing Elicitation Strategies for Hausa and Fongbe
- arxiv url: http://arxiv.org/abs/2604.12477v1
- Date: Tue, 14 Apr 2026 09:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.360365
- Title: Mining Large Language Models for Low-Resource Language Data: Comparing Elicitation Strategies for Hausa and Fongbe
- Title(参考訳): 低リソース言語データのための大規模言語モデルのマイニング:HausaとFongbeの引用戦略の比較
- Authors: Mahounan Pericles Adjovi, Roald Eiselen, Prasenjit Mitra,
- Abstract要約: 本稿では,戦略的プロンプトが大規模言語モデルから有用なテキストデータを抽出できるかどうかを検討する。
GPT-4o Mini は API コールあたりの目標単語を Gemini の 6-41 倍の精度で抽出できることを示す。
- 参考スコア(独自算出の注目度): 12.074798555934855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are trained on data contributed by low-resource language communities, yet the linguistic knowledge encoded in these models remains accessible only through commercial APIs. This paper investigates whether strategic prompting can extract usable text data from LLMs for two West African languages: Hausa (Afroasiatic, approximately 80 million speakers) and Fongbe (Niger-Congo, approximately 2 million speakers). We systematically compare six elicitation task types across two commercial LLMs (GPT-4o Mini and Gemini 2.5 Flash). GPT-4o Mini extracts 6-41 times more usable target-language words per API call than Gemini. Optimal strategies differ by language: Hausa benefits from functional text and dialogue, while Fongbe requires constrained generation prompts. We release all generated corpora and code.
- Abstract(参考訳): 大規模言語モデル(LLM)は、低リソース言語コミュニティが提供したデータに基づいて訓練されているが、これらのモデルに符号化された言語知識は、商用APIを通じてのみアクセス可能である。
本稿では, 戦略的プロンプトにより, ハウサ語(約8000万話者), フォンベ語(約200万話者, ニジェーコンゴ語)の2つの西アフリカの言語において, LLM から有用なテキストデータを抽出できるかどうかを検討する。
2つの商用LCM (GPT-4o Mini と Gemini 2.5 Flash) にまたがる6種類の照会タスクを系統的に比較した。
GPT-4o Miniは、APIコールあたりのターゲット言語単語をGeminiの6-41倍に抽出する。
Hausaは関数型テキストと対話の恩恵を受け、Fongbeは制約付き生成プロンプトを必要とする。
すべての生成されたコーパスとコードをリリースします。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - On Limitations of LLM as Annotator for Low Resource Languages [0.4194295877935868]
低リソース言語は、教師付き学習、アノテーション、分類といったタスクのための十分な言語データ、リソース、ツールが不足しているため、重大な課題に直面している。
このギャップを埋めるために、Large Language Models (LLM) は潜在的なアノテータの機会を提供する。
論文 参考訳(メタデータ) (2024-11-26T17:55:37Z) - Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages [1.7436854281619139]
オープンドメイン対話システムに使用される大規模事前学習言語モデル(PLM)の言語ポータビリティ戦略について検討する。
特に、ターゲットの低リソース言語(L_T)は、タスク固有のリソースがないため、フランス語でシミュレートされる。
論文 参考訳(メタデータ) (2024-07-01T14:20:54Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Baichuan 2: Open Large-scale Language Models [51.34140526283222]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。