論文の概要: It's All About In-Context Learning! Teaching Extremely Low-Resource Languages to LLMs
- arxiv url: http://arxiv.org/abs/2508.19089v1
- Date: Tue, 26 Aug 2025 14:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.890881
- Title: It's All About In-Context Learning! Teaching Extremely Low-Resource Languages to LLMs
- Title(参考訳): インコンテキスト学習がすべてだ! 極端に低リソースな言語をLLMに教える
- Authors: Yue Li, Zhixue Zhao, Carolina Scarton,
- Abstract要約: 極端に低リソースな言語、特に稀なスクリプトで書かれた言語は、大きな言語モデル(LLM)によってほとんどサポートされていない。
本稿では,LLMがテキスト内学習(ICL)によって純粋にそのような言語を習得できるかどうかを,補助的アライメント信号を用いて解析し,パラメータ効率のよい微調整(PEFT)と比較した。
我々は3つの最先端多言語 LLM にまたがる20の非表現言語を評価する。
- 参考スコア(独自算出の注目度): 16.130133009174124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extremely low-resource languages, especially those written in rare scripts, as shown in Figure 1, remain largely unsupported by large language models (LLMs). This is due in part to compounding factors such as the lack of training data. This paper delivers the first comprehensive analysis of whether LLMs can acquire such languages purely via in-context learning (ICL), with or without auxiliary alignment signals, and how these methods compare to parameter-efficient fine-tuning (PEFT). We systematically evaluate 20 under-represented languages across three state-of-the-art multilingual LLMs. Our findings highlight the limitation of PEFT when both language and its script are extremely under-represented by the LLM. In contrast, zero-shot ICL with language alignment is impressively effective on extremely low-resource languages, while few-shot ICL or PEFT is more beneficial for languages relatively better represented by LLMs. For LLM practitioners working on extremely low-resource languages, we summarise guidelines grounded by our results on adapting LLMs to low-resource languages, e.g., avoiding fine-tuning a multilingual model on languages of unseen scripts.
- Abstract(参考訳): 図1に示すように、極端に低リソースな言語、特に稀なスクリプトで書かれた言語は、大きな言語モデル(LLM)によって大きく支持されている。
これは、トレーニングデータの欠如など、複合的な要因による部分もある。
本稿では,LLMがテキスト内学習(ICL)によって純粋にそのような言語を習得できるかどうかを,補助的アライメント信号を用いて解析し,パラメータ効率のよい微調整(PEFT)と比較した。
我々は3つの最先端多言語 LLM にまたがる20の非表現言語を体系的に評価した。
LLMでは,言語とスクリプトの双方が極めて低表現率である場合,PEFTの限界が指摘された。
対照的に、ゼロショットICLと言語アライメントは極端に低リソースの言語では顕著に有効であるが、少数ショットICLやPEFTは比較的LLMで表現された言語ではより有益である。
極低リソース言語に取り組んでいるLLM実践者に対しては,LLMを低リソース言語に適用するためのガイドラインを要約する。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。