論文の概要: Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2604.11290v1
- Date: Mon, 13 Apr 2026 10:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.482441
- Title: Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation
- Title(参考訳): 多言語教師:多言語合成データ生成のための言語モデルの評価
- Authors: Lester James V. Miranda, Ivan Vulić, Anna Korhonen,
- Abstract要約: 我々は,Polyglot Score(ポリグロットスコア)と呼ばれるメトリクスを用いて,データ品質の内在的な測定と,外部の学生モデルの性能の測定を行う。
試験されたモデルのうち、Gemma 3 27B と Aya Expanse 32B は、様々な学生モデルファミリーで一貫して効果的な教師として出現する。
- 参考スコア(独自算出の注目度): 26.0110780891185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing supervised finetuning (SFT) data from language models (LMs) to teach smaller models multilingual tasks has become increasingly common. However, teacher model selection is often ad hoc, typically defaulting to the largest available option, even though such models may have significant capability gaps in non-English languages. This practice can result in poor-quality synthetic data and suboptimal student downstream performance. In this work, we systematically characterize what makes an effective multilingual teacher. We measure intrinsic measures of data quality with extrinsic student model performance in a metric we call Polyglot Score; evaluating 10 LMs across 6 typologically diverse languages, generating over 1.4M SFT examples and training 240 student models. Among the models tested, Gemma 3 27B and Aya Expanse 32B emerge as consistently effective teachers across different student base model families. Further analyses reveal that model scale alone does not significantly predict teacher effectiveness; instead, data qualities such as prompt diversity, length, and response fluency capture over 93.3% of variance in intrinsic data quality and predict student performance. Finally, we provide practical recommendations, including matching the model families of teacher-student pairs and translating from or responding to existing prompts, which can yield improvements for less-resourced languages. We hope that our work advances data-centric research in multilingual synthetic data and LM development.
- Abstract(参考訳): 教師付き微調整(SFT)データを言語モデル(LM)から合成し、より小さなモデルで多言語タスクを教えることがますます一般的になっている。
しかし、教師モデルの選択は、英語以外の言語では大きな能力ギャップがあるにもかかわらず、通常、最大の選択肢にデフォルトを付けるため、しばしばアドホックである。
このプラクティスは、質の悪い合成データと、至適の学生の下流のパフォーマンスをもたらす可能性がある。
本研究は,効果的な多言語教師を創出する要因を体系的に特徴づけるものである。
我々は,Polyglot Score(多言語スコア)と呼ばれる指標を用いて,データ品質の内在測定を行い,類型的に多様性のある6言語にわたる10のLMを評価し,1.4万以上のSFTサンプルを生成し,240の学生モデルを訓練した。
試験されたモデルのうち、Gemma 3 27B と Aya Expanse 32B は、様々な学生モデルファミリーで一貫して効果的な教師として出現する。
さらに分析したところ、モデルスケールだけでは教師効果を著しく予測することはできないことが判明した。代わりに、データ品質の93.3%以上の多様性、長さ、反応流速のキャプチャーなどのデータ品質が、本質的なデータ品質のばらつきと生徒のパフォーマンスを予測している。
最後に、教師と学生のペアのモデルファミリーのマッチングや、既存のプロンプトからの翻訳や応答といった実践的なレコメンデーションを提供する。
我々は,多言語合成データとLM開発におけるデータ中心の研究を進めていくことを願っている。
関連論文リスト
- Retrofitting Small Multilingual Models for Retrieval: Matching 7B Performance with 300M Parameters [30.737678658069097]
効果的な多言語埋め込みモデルの訓練は、言語やタスクの目的の多様性による固有の課題を提示する。
我々は,多言語埋め込みの有効性に影響を及ぼす重要な要因について検討し,トレーニングデータ尺度,ネガティブサンプリング戦略,データ多様性に着目した。
我々は,現在の強7Bモデルに匹敵する,あるいは超越する検索性能を実現する,コンパクトな(約300M)多言語モデルを開発した。
論文 参考訳(メタデータ) (2025-10-16T03:48:59Z) - mR3: Multilingual Rubric-Agnostic Reward Reasoning Models [16.953894896444403]
我々は,72言語で訓練された,多言語・ルックスに依存しない報酬推論モデルであるmR3を紹介する。
本稿では、高品質の報酬モデルを構築するための効果的な戦略とデータソースを特定するための訓練のためのデータとカリキュラムの選択について包括的に研究する。
提案手法は,多言語報酬モデルベンチマークにおける最先端のパフォーマンスを達成し,より大規模なモデルを上回るものである。
論文 参考訳(メタデータ) (2025-10-01T17:36:59Z) - Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - Model Selection for Cross-Lingual Transfer [15.197350103781739]
本稿では,モデル選択のための機械学習手法を提案する。
大規模な実験では、この手法は205言語にわたる英語の検証データよりも優れたモデルを選択する。
論文 参考訳(メタデータ) (2020-10-13T02:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。