論文の概要: Multilingual Arbitrage: Optimizing Data Pools to Accelerate Multilingual Progress
- arxiv url: http://arxiv.org/abs/2408.14960v1
- Date: Tue, 27 Aug 2024 11:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:03:31.971515
- Title: Multilingual Arbitrage: Optimizing Data Pools to Accelerate Multilingual Progress
- Title(参考訳): マルチリンガル・アービタージュ:マルチリンガル・プログレスを加速するためにデータプールを最適化する
- Authors: Ayomide Odumakinde, Daniel D'souza, Pat Verga, Beyza Ermis, Sara Hooker,
- Abstract要約: 与えられた言語に対する複数のモデル間の性能変動を生かした「多言語仲裁」を導入する。
我々は、多言語仲裁に切り替える際に、すべての言語で平均される勝利率を最大56.5%向上させることを観察する。
- 参考スコア(独自算出の注目度): 14.190515206298377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of synthetic data has played a critical role in recent state-of-art breakthroughs. However, overly relying on a single oracle teacher model to generate data has been shown to lead to model collapse and invite propagation of biases. These limitations are particularly evident in multilingual settings, where the absence of a universally effective teacher model that excels across all languages presents significant challenges. In this work, we address these extreme difference by introducing "multilingual arbitrage", which capitalizes on performance variations between multiple models for a given language. To do so, we strategically route samples through a diverse pool of models, each with unique strengths in different languages. Across exhaustive experiments on state-of-art models, our work suggests that arbitrage techniques allow for spectacular gains in performance that far outperform relying on a single teacher. In particular, compared to the best single teacher, we observe gains of up to 56.5% improvement in win rates averaged across all languages when switching to multilingual arbitrage. We observe the most significant gains for the least resourced languages in our pool.
- Abstract(参考訳): 合成データの利用は、最近の最先端のブレークスルーにおいて重要な役割を担っている。
しかし、データを生成するために1つのオラクルの教師モデルに過度に依存していることが、モデルの崩壊とバイアスの伝播につながることが示されている。
これらの制限は多言語設定において特に顕著であり、すべての言語にまたがる普遍的な効果的な教師モデルがないことは重大な課題である。
本研究では、与えられた言語に対する複数のモデル間の性能変化を生かした「多重仲裁」を導入することで、これらの極端な差異に対処する。
そのために、さまざまな言語に固有の長所を持つ多様なモデルのプールを通じて、サンプルを戦略的にルーティングする。
我々の研究は、最先端のモデルに関する徹底的な実験を通して、仲裁技術は一人の教師に頼ってはるかに優れたパフォーマンスを得られることを示唆している。
特に、最高の一人の教師と比較して、多言語仲裁に切り替える際に、すべての言語で平均される勝利率を56.5%向上させるのが観察できる。
プール内の最もリソースの少ない言語について、最も顕著な利益を観察する。
関連論文リスト
- LOLA -- An Open-Source Massively Multilingual Large Language Model [1.5704590739448838]
LOLAは160以上の言語で訓練された多言語大言語モデルである。
私たちのアーキテクチャと実装の選択は、言語多様性を活用するという課題に対処します。
学習したエキスパート・ルーティング機構は、暗黙の系統パターンを利用して、多言語性の呪いを和らげる可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-17T15:23:08Z) - Do Multilingual Large Language Models Mitigate Stereotype Bias? [9.31741279000585]
この研究は、英語、ドイツ語、フランス語、イタリア語、スペイン語で同じ大きさの6つのLLMを体系的に訓練する。
単言語モデルと比較して,多言語モデルの方がバイアスの低いだけでなく,予測精度も優れていることが観察された。
論文 参考訳(メタデータ) (2024-07-08T08:46:50Z) - A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models [64.79218405438871]
最近の研究は、多言語大言語モデルを強化するために並列コーパスを利用する可能性を強調している。
並列コーパスで強化された多言語大言語モデルの性能に及ぼす並列コーパスの品質と量,訓練目標,モデルサイズの影響について検討した。
論文 参考訳(メタデータ) (2024-06-29T13:12:39Z) - CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - XtremeDistil: Multi-stage Distillation for Massive Multilingual Models [19.393371230300225]
我々は多言語名前付きエンティティ認識(NER)に着目して知識蒸留を研究する。
本稿では,教師の内部表現を教師のアーキテクチャに依存しない段階的最適化手法を提案する。
提案手法は,NER 41言語に対する F1 スコアの95% を保ちながら,パラメータの35倍,バッチ推論の51倍のレイテンシで MBERT ライクな教師モデルを大幅に圧縮することを示した。
論文 参考訳(メタデータ) (2020-04-12T19:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。