論文の概要: Better as Generators Than Classifiers: Leveraging LLMs and Synthetic Data for Low-Resource Multilingual Classification
- arxiv url: http://arxiv.org/abs/2601.16278v1
- Date: Thu, 22 Jan 2026 19:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.382572
- Title: Better as Generators Than Classifiers: Leveraging LLMs and Synthetic Data for Low-Resource Multilingual Classification
- Title(参考訳): 分類器より優れたジェネレータ:低リソース多言語分類のためのLLMと合成データを活用する
- Authors: Branislav Pecher, Jan Cegin, Robert Belanec, Ivan Srba, Jakub Simko, Maria Bielikova,
- Abstract要約: 本研究は, 合成データ生成能力が蒸留の一形態として機能するかどうかを考察する。
我々は最先端の多言語LPMを用いて11言語と4つの分類タスクをカバーする合成データセットを生成する。
実験により、少量の合成データでさえ、より小さなモデルで大容量の発電機よりも優れた性能を発揮することが示されている。
- 参考スコア(独自算出の注目度): 9.202861681047315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable multilingual capabilities, making them promising tools in both high- and low-resource languages. One particularly valuable use case is generating synthetic samples that can be used to train smaller models in low-resource scenarios where human-labelled data is scarce. In this work, we investigate whether these synthetic data generation capabilities can serve as a form of distillation, producing smaller models that perform on par with or even better than massive LLMs across languages and tasks. To this end, we use a state-of-the-art multilingual LLM to generate synthetic datasets covering 11 languages and 4 classification tasks. These datasets are then used to train smaller models via fine-tuning or instruction tuning, or as synthetic in-context examples for compact LLMs. Our experiments show that even small amounts of synthetic data enable smaller models to outperform the large generator itself, particularly in low-resource languages. Overall, the results suggest that LLMs are best utilised as generators (teachers) rather than classifiers, producing data that empowers smaller and more efficient multilingual models.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい多言語機能を示しており、ハイソース言語とローリソース言語の両方で有望なツールとなっている。
特に価値のあるユースケースは、人間のラベル付きデータが不足している低リソースのシナリオで、より小さなモデルをトレーニングするために使用できる合成サンプルを生成することだ。
本研究では,これらの合成データ生成能力が蒸留の一形態として機能するかどうかを考察し,言語やタスクにまたがる大規模LLMに匹敵する,より小さなモデルを生成する。
この目的のために,11言語と4つの分類タスクを含む合成データセットを生成するために,最先端の多言語LLMを用いている。
これらのデータセットは、ファインチューニングやインストラクションチューニング、あるいはコンパクトなLLMのための合成インコンテキストの例として、より小さなモデルをトレーニングするために使用される。
我々の実験は、たとえ少量の合成データであっても、より小さなモデルでも、特に低リソース言語において、大きなジェネレータ自体よりも優れた性能を発揮することを示した。
全体として, LLMは分類器よりもジェネレータ(教師)として最適であり, より小型で効率的な多言語モデルを実現するデータを生成することが示唆された。
関連論文リスト
- A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis [43.746749403268275]
大規模言語モデル(LLM)は、計算コスト、環境不効率、モノリシックアーキテクチャから受け継いだ潜在的なバイアスに悩まされる。
我々は、高品質で多様な信頼性のあるデータを生成するために、小さなLLMにまたがる特殊な役割を集約する協調的なフレームワークGRAを提案する。
本研究は,データ合成におけるモノリシックな大規模モデルの必要性に挑戦し,より小さなエージェントの戦略的コーディネーションを提唱する。
論文 参考訳(メタデータ) (2025-04-11T06:13:43Z) - Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。