論文の概要: Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review
- arxiv url: http://arxiv.org/abs/2505.04531v1
- Date: Wed, 07 May 2025 16:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.144752
- Title: Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review
- Title(参考訳): 低リソース言語のための生成言語モデリングにおけるデータスカシティの克服 - 体系的レビュー
- Authors: Josh McGiff, Nikola S. Nikolov,
- Abstract要約: 本稿では、低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てる。
モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、即興エンジニアリングなど、技術的アプローチを特定し、分類し、評価する。
我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative language modelling has surged in popularity with the emergence of services such as ChatGPT and Google Gemini. While these models have demonstrated transformative potential in productivity and communication, they overwhelmingly cater to high-resource languages like English. This has amplified concerns over linguistic inequality in natural language processing (NLP). This paper presents the first systematic review focused specifically on strategies to address data scarcity in generative language modelling for low-resource languages (LRL). Drawing from 54 studies, we identify, categorise and evaluate technical approaches, including monolingual data augmentation, back-translation, multilingual training, and prompt engineering, across generative tasks. We also analyse trends in architecture choices, language family representation, and evaluation methods. Our findings highlight a strong reliance on transformer-based models, a concentration on a small subset of LRLs, and a lack of consistent evaluation across studies. We conclude with recommendations for extending these methods to a wider range of LRLs and outline open challenges in building equitable generative language systems. Ultimately, this review aims to support researchers and developers in building inclusive AI tools for underrepresented languages, a necessary step toward empowering LRL speakers and the preservation of linguistic diversity in a world increasingly shaped by large-scale language technologies.
- Abstract(参考訳): 生成言語モデリングは、ChatGPTやGoogle Geminiといったサービスの出現によって、人気が高まっている。
これらのモデルは生産性とコミュニケーションにおける変革の可能性を示しているが、英語のような高リソース言語に圧倒的に迫っている。
これは自然言語処理(NLP)における言語不平等に対する懸念を増幅している。
本稿では,低リソース言語(LRL)における生成言語モデリングにおけるデータ不足に対処する戦略に焦点を当てた,最初の体系的なレビューを行う。
54の研究から、モノリンガルデータ拡張、バックトランスレーション、多言語トレーニング、そして、生成タスク間での迅速なエンジニアリングを含む技術的アプローチを特定し、分類し、評価する。
また,アーキテクチャ選択,言語家族表現,評価手法の傾向を分析した。
以上の結果から,トランスフォーマーモデルへの強い依存,LRLの小さなサブセットへの集中,研究全体にわたる一貫した評価の欠如が示唆された。
我々は,これらの手法を広い範囲のLRLに拡張することを推奨し,同値生成言語システムを構築する上でのオープンな課題を概説する。
究極的には、このレビューは研究者や開発者が、未表現言語のための包括的AIツールを構築するのを支援することを目的としている。
関連論文リスト
- A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。