論文の概要: A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives
- arxiv url: http://arxiv.org/abs/2407.15489v2
- Date: Mon, 7 Oct 2024 08:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:56:37.619770
- Title: A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives
- Title(参考訳): 多言語事前学習対象としての言語モデリングと翻訳の比較
- Authors: Zihao Li, Shaoxiong Ji, Timothee Mickus, Vincent Segonne, Jörg Tiedemann,
- Abstract要約: プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
- 参考スコア(独自算出の注目度): 13.581385765600265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) display impressive performances and have captured the attention of the NLP community. Establishing best practices in pretraining has, therefore, become a major focus of NLP research, especially since insights gained from monolingual English models may not necessarily apply to more complex multilingual models. One significant caveat of the current state of the art is that different works are rarely comparable: they often discuss different parameter counts, training data, and evaluation methodology. This paper proposes a comparison of multilingual pretraining objectives in a controlled methodological environment. We ensure that training data and model architectures are comparable, and discuss the downstream performances across 6 languages that we observe in probing and fine-tuning scenarios. We make two key observations: (1) the architecture dictates which pretraining objective is optimal; (2) multilingual translation is a very effective pretraining objective under the right conditions. We make our code, data, and model weights available at \texttt{\url{https://github.com/Helsinki-NLP/lm-vs-mt}}.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
事前訓練におけるベストプラクティスの確立は、特にモノリンガル英語モデルから得られた洞察がより複雑な多言語モデルに必ずしも適用されないため、NLP研究の主要な焦点となっている。
現在の最先端の重大な注意事項の1つは、異なる作業はめったに比較されず、異なるパラメータ数、トレーニングデータ、評価方法論について議論することが多いことである。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
データとモデルアーキテクチャのトレーニングが同等であることを確認し、調査と微調整のシナリオで観察する6つの言語にわたるダウンストリームのパフォーマンスについて議論します。
本研究では,(1)事前学習対象が最適であるかをアーキテクチャが規定する,(2)多言語翻訳は適切な条件下での学習対象として非常に効果的である,という2つの重要な観察を行う。
私たちは、コード、データ、モデルの重み付けを、texttt{\url{https://github.com/Helsinki-NLP/lm-vs-mt}}で公開しています。
関連論文リスト
- Cross-Lingual Supervision improves Large Language Models Pre-training [36.932380291416365]
自己教師型言語モデリング目標と教師型機械翻訳目標の混合による事前学習により,文脈内学習能力のよいモデルが得られることを示す。
事前学習は非常に資源集約的なプロセスであり、2つの目標間の最良の混合比のグリッド探索は違法にコストがかかるため、事前学習時に学習するためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2023-05-19T16:14:07Z) - PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for
Translation with Semi-Supervised Pseudo-Parallel Document Generation [5.004814662623874]
本稿では,多言語事前学習のための高品質な擬似並列データを生成する,新しい半教師付きSPDGを提案する。
実験の結果, PEACH はmT5 と mBART を様々な翻訳タスクで訓練する上で, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T18:19:26Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。