論文の概要: A Study of Continual Learning Under Language Shift
- arxiv url: http://arxiv.org/abs/2311.01200v1
- Date: Thu, 2 Nov 2023 12:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 13:36:35.709394
- Title: A Study of Continual Learning Under Language Shift
- Title(参考訳): 言語変化下における連続学習に関する研究
- Authors: Evangelia Gogoulou, Timoth\'ee Lesort, Magnus Boman, Joakim Nivre
- Abstract要約: 新しいデータが新しい言語から来るとき、言語モデルを更新する利点と欠点について研究する。
以上の結果から,前向き移動は言語順に大きく依存するが,後向き移動は新言語の順序や特徴によって正か負かのどちらかになる可能性が示唆された。
- 参考スコア(独自算出の注目度): 7.56182632362898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent increase in data and model scale for language model pre-training
has led to huge training costs. In scenarios where new data become available
over time, updating a model instead of fully retraining it would therefore
provide significant gains. In this paper, we study the benefits and downsides
of updating a language model when new data comes from new languages - the case
of continual learning under language shift. Starting from a monolingual English
language model, we incrementally add data from Norwegian and Icelandic to
investigate how forward and backward transfer effects depend on the
pre-training order and characteristics of languages, for different model sizes
and learning rate schedulers. Our results show that, while forward transfer is
largely positive and independent of language order, backward transfer can be
either positive or negative depending on the order and characteristics of new
languages. To explain these patterns we explore several language similarity
metrics and find that syntactic similarity appears to have the best correlation
with our results.
- Abstract(参考訳): 最近の言語モデルの事前トレーニングのデータとモデルスケールの増加は、大きなトレーニングコストを生み出した。
新しいデータが時間とともに利用可能になるシナリオでは、完全に再トレーニングするのではなく、モデルを更新することが大きな利益をもたらす。
本稿では,新しいデータが新しい言語からやってくる場合の言語モデル更新の利点と欠点について検討する。
単言語英語モデルから始めて,ノルウェー語とアイスランド語からのデータを段階的に追加し,モデルサイズや学習率のスケジューラによって,事前学習順序や特徴にどのような影響があるかを検討する。
以上の結果から,前向き移動は言語順に大きく依存するが,後向き移動は新言語の順序や特徴によって正か負かのどちらかになる可能性が示唆された。
これらのパターンを説明するために、いくつかの言語類似度指標を探索し、構文類似度が結果と最もよく相関していることを示す。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Improving Polish to English Neural Machine Translation with Transfer
Learning: Effects of Data Volume and Language Similarity [2.4674086273775035]
機械翻訳作業におけるデータ量と類似言語の使用が伝達学習に与える影響について検討する。
OPUS-100データセットを用いてポーランド語と英語の翻訳タスクに対してmBARTモデルを微調整する。
実験の結果、関連する言語と大量のデータの組み合わせは、関連する言語や大量のデータだけで訓練されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T13:34:21Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。