論文の概要: Conditions for Catastrophic Forgetting in Multilingual Translation
- arxiv url: http://arxiv.org/abs/2510.19546v1
- Date: Wed, 22 Oct 2025 12:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.767924
- Title: Conditions for Catastrophic Forgetting in Multilingual Translation
- Title(参考訳): 多言語翻訳におけるカタストロフィック・フォーミングの条件
- Authors: Danni Liu, Jan Niehues,
- Abstract要約: 多言語微調整における破滅的忘れを誘発する条件を同定する。
モデルとデータサイズの間の相対的なスケールは、忘れる際の主要な決定要因であることを示す。
また, 言語間アライメントは, 忘れを軽減し, 未確認対象言語への肯定的な移動を促進することも示している。
- 参考スコア(独自算出の注目度): 24.10629800866219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning multilingual foundation models on specific languages often induces catastrophic forgetting, degrading performance on languages unseen in fine-tuning. While this phenomenon is widely-documented, the literature presents fragmented results about when forgetting occurs. To address this ambiguity, we conduct a systematic empirical study using machine translation as a testbed to identify the conditions that trigger catastrophic forgetting in multilingual fine-tuning. Through controlled experiments across different model architectures, data scales, and fine-tuning approaches, we reveal that the relative scale between model and data size is a primary determinant of forgetting. Moreover, we demonstrate that a model's instruction-following ability is more critical for retaining multilingual knowledge than its architecture. Contrary to assumptions, parameter-efficient fine-tuning offers no clear advantage over full fine-tuning in mitigating forgetting. Lastly, we show that cross-lingual alignment can mitigate forgetting while also facilitating positive transfer to unseen target languages.
- Abstract(参考訳): 特定の言語で微調整された多言語基盤モデルは、しばしば破滅的な忘れを招き、微調整では見えない言語のパフォーマンスを低下させる。
この現象は広く文書化されているが、忘れられた場合の断片的な結果が報告されている。
このあいまいさに対処するため,多言語微調整における破滅的忘れを誘発する条件を特定するために,機械翻訳をテストベッドとして用いた系統的研究を行った。
異なるモデルアーキテクチャ、データスケール、微調整アプローチの制御実験を通じて、モデルとデータサイズの間の相対スケールが、忘れることの主要な決定要因であることを明らかにする。
さらに、モデルの命令追従能力は、そのアーキテクチャよりも多言語的知識を維持する上で重要であることを実証する。
仮定とは対照的に、パラメータ効率の良い微調整は、忘れを緩和する際の完全な微調整よりも明確な優位性を与えない。
最後に, 言語間アライメントは, 忘れを軽減しつつ, 対象言語への肯定的な移動を促進できることを示す。
関連論文リスト
- Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - Exploring Performance Variations in Finetuned Translators of Ultra-Low Resource Languages: Do Linguistic Differences Matter? [0.0]
少ないデータ量で事前訓練された言語モデルを微調整することは、超低リソース言語のためのトランスレータを作成するための一般的な方法である。
以前の研究では、同様の方法論とデータを用いてトランスレータを作成した場合、かなり異なるパフォーマンスが報告されている。
論文 参考訳(メタデータ) (2025-11-27T14:15:14Z) - Quantifying Language Disparities in Multilingual Large Language Models [31.198046729180266]
大規模多言語評価で報告された結果は、しばしば、対象言語、実験的な設定の違い、モデル選択などの要因によって断片化され、まとめられる。
本稿では,これらの相反する変数をアンタングル化し,性能実現率,変動係数,言語ポテンシャルの3つの解釈可能な指標を導入するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-23T23:25:38Z) - Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? [17.011882550422452]
命令データの性質がモデル出力に影響を及ぼすかどうかは不明である。
翻訳されたテストセットがそのようなニュアンスをキャプチャできるかどうかは疑わしい。
ネイティブまたはジェネレーションベンチマークでは、ネイティブとトランスポートされたインストラクションデータの間に顕著な違いがあることが示されている。
論文 参考訳(メタデータ) (2024-06-18T17:43:47Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Is Prompt-Based Finetuning Always Better than Vanilla Finetuning?
Insights from Cross-Lingual Language Understanding [0.30586855806896046]
本稿では, Prompt-based Finetuning の言語間機能を調べるために, ProFiT パイプラインを提案する。
本研究は,言語間言語理解におけるアクシデントベースファインタニングの有効性と汎用性を明らかにするものである。
論文 参考訳(メタデータ) (2023-07-15T20:33:33Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Adaptive Sparse Transformer for Multilingual Translation [18.017674093519332]
多言語モデルの既知の課題は、否定的な言語干渉です。
多言語モデリングのための適応的でスパースなアーキテクチャを提案する。
我々のモデルは、推論コストを増加させることなく、翻訳品質の点で強力なベースラインを上回る。
論文 参考訳(メタデータ) (2021-04-15T10:31:07Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。