論文の概要: What Causes Knowledge Loss in Multilingual Language Models?
- arxiv url: http://arxiv.org/abs/2504.20356v1
- Date: Tue, 29 Apr 2025 01:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.718577
- Title: What Causes Knowledge Loss in Multilingual Language Models?
- Title(参考訳): 多言語言語モデルにおける知識喪失の原因は何か?
- Authors: Maria Khelli, Samuel Cahyawijaya, Ayu Purwarianti, Genta Indra Winata,
- Abstract要約: 自然言語処理(NLP)モデルにおける言語間移動は、共通言語知識を活用することで多言語のパフォーマンスを向上させる。
すべてのデータを同時に処理する従来の方法は、現実のシナリオを模倣することができないことが多い。
本研究は,モデルパラメータだけでなく,表現学習に影響を与える言語的差異に着目し,多言語文脈におけるこの問題を考察する。
- 参考スコア(独自算出の注目度): 26.094144160398443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer in natural language processing (NLP) models enhances multilingual performance by leveraging shared linguistic knowledge. However, traditional methods that process all data simultaneously often fail to mimic real-world scenarios, leading to challenges like catastrophic forgetting, where fine-tuning on new tasks degrades performance on previously learned ones. Our study explores this issue in multilingual contexts, focusing on linguistic differences affecting representational learning rather than just model parameters. We experiment with 52 languages using LoRA adapters of varying ranks to evaluate non-shared, partially shared, and fully shared parameters. Our aim is to see if parameter sharing through adapters can mitigate forgetting while preserving prior knowledge. We find that languages using non-Latin scripts are more susceptible to catastrophic forgetting, whereas those written in Latin script facilitate more effective cross-lingual transfer.
- Abstract(参考訳): 自然言語処理(NLP)モデルにおける言語間移動は、共通言語知識を活用することで多言語のパフォーマンスを向上させる。
しかしながら、すべてのデータを同時に処理する従来の方法は、現実のシナリオを模倣することができないことが多いため、破滅的な忘れ込みのような課題が発生し、新しいタスクの微調整は、以前に学習したタスクのパフォーマンスを低下させる。
本研究は,モデルパラメータだけでなく,表現学習に影響を与える言語的差異に着目し,多言語文脈におけるこの問題を考察する。
52言語を対象に、異なるランクのLoRAアダプタを用いて、非共有、部分共有、完全共有パラメータの評価を行った。
我々の目的は、アダプタによるパラメータ共有が、事前の知識を維持しながら忘れを軽減できるかどうかを確かめることである。
非ラテン文字を用いた言語は破滅的な忘れがちであるのに対して、ラテン文字で書かれた言語はより効果的な言語間移動を促進する。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Unknown Script: Impact of Script on Cross-Lingual Transfer [2.5398014196797605]
言語間移動は、言語間で知識を伝達する効果的な方法となっている。
対象言語とそのスクリプトが事前訓練されたモデルの一部ではない場合を考える。
この結果から, 共通スクリプト, 言語類似性, モデルサイズよりも, トークン化の重要性が示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:48:01Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Measuring Catastrophic Forgetting in Cross-Lingual Transfer Paradigms: Exploring Tuning Strategies [4.118037156777793]
言語間移動は、少ないリソースの言語でタスクを解くための有望なテクニックである。
大規模言語モデルに対する2つの微調整アプローチとゼロショットおよびフルショット学習アプローチを比較した。
論文 参考訳(メタデータ) (2023-09-12T09:37:08Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Improving Zero-Shot Multi-Lingual Entity Linking [14.502266106371433]
我々は、複数の言語における同言語知識ベースへの参照をリンクするように、1つのモデルが訓練される多言語エンティティリンクを考える。
テキストの多言語トランスフォーマー表現を利用して,多言語設定に容易に適用可能なニューラルネットワークローダアーキテクチャを提案する。
このアプローチを使用することで、いくつかのデータセットでのリコールが改善され、しばしば言語内のパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2021-04-16T12:50:07Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。