論文の概要: A Rigorous Evaluation of LLM Data Generation Strategies for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2506.12158v2
- Date: Mon, 23 Jun 2025 07:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.390087
- Title: A Rigorous Evaluation of LLM Data Generation Strategies for Low-Resource Languages
- Title(参考訳): 低リソース言語におけるLLMデータ生成戦略の厳密な評価
- Authors: Tatiana Anikina, Jan Cegin, Jakub Simko, Simon Ostermann,
- Abstract要約: 大規模言語モデル(LLM)は、より小さな専門的なモデルを訓練するための合成テキストデータを生成するために、ますます使われている。
本稿では,11言語にまたがる生成戦略とその組み合わせの性能を評価する。
- 参考スコア(独自算出の注目度): 4.730181975628172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used to generate synthetic textual data for training smaller specialized models. However, a comparison of various generation strategies for low-resource language settings is lacking. While various prompting strategies have been proposed, such as demonstrations, label-based summaries, and self-revision, their comparative effectiveness remains unclear, especially for low-resource languages. In this paper, we systematically evaluate the performance of these generation strategies and their combinations across 11 typologically diverse languages, including several extremely low-resource ones. Using three NLP tasks and four open-source LLMs, we assess downstream model performance on generated versus gold-standard data. Our results show that strategic combinations of generation methods, particularly target-language demonstrations with LLM-based revisions, yield strong performance, narrowing the gap with real data to as little as 5% in some settings. We also find that smart prompting techniques can reduce the advantage of larger LLMs, highlighting efficient generation strategies for synthetic data generation in low-resource scenarios with smaller models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、より小さな専門的なモデルを訓練するための合成テキストデータを生成するために、ますます使われている。
しかし、低リソース言語設定のための様々な世代戦略の比較は不十分である。
実演、ラベルに基づく要約、自己修正など、様々なプロンプト戦略が提案されているが、それらの比較効果は、特に低リソース言語では不明確である。
本稿では,これらの生成戦略とその組み合わせを,非常に低リソースな言語を含む11言語で体系的に評価する。
3つのNLPタスクと4つのオープンソースLCMを用いて、生成された金標準データに対して下流モデルの性能を評価する。
以上の結果から, 生成手法の戦略的組み合わせ, 特に目標言語とLLMに基づくリビジョンを併用すると, 性能が向上し, 実際のデータとのギャップを5%以下に縮めることが示唆された。
また、スマートプロンプト技術はより大きなLCMの利点を減らし、より小さなモデルによる低リソースシナリオにおける合成データ生成の効率的な生成戦略を強調した。
関連論文リスト
- Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。