論文の概要: Multilingual Unlearning in LLMs: Transfer, Dynamics, and Reversibility
- arxiv url: http://arxiv.org/abs/2606.03291v1
- Date: Tue, 02 Jun 2026 07:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.851035
- Title: Multilingual Unlearning in LLMs: Transfer, Dynamics, and Reversibility
- Title(参考訳): LLMにおける多言語アンラーニング:伝達,ダイナミクス,可逆性
- Authors: Chaoyi Xiang, Olga Ohrimenko, Benjamin I. P. Rubinstein, Lea Frermann,
- Abstract要約: 我々はTOFUベンチマークを5言語に拡張し,多言語アンラーニングについて検討した。
未学習の言語以外の言語で事実を“忘れる”能力である未学習のトランスファーが、非常に可変であることに気付きました。
- 参考スコア(独自算出の注目度): 27.073886293710945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can memorize sensitive facts, motivating unlearning methods that remove targeted knowledge without costly retraining. However, unlearning research remains heavily English-centric. We study multilingual unlearning by extending the TOFU benchmark to five languages, and fine-tune, unlearn, and query our models with different permutations of languages. We find that unlearning transfer, the ability of an unlearned model to "forget" facts in languages other than the unlearning language, is highly variable: e.g., it is strongest between languages sharing scripts and families, and we show that the unlearning language predicts which query languages are most likely to yield the strongest transfer. Layer-wise analysis reveals that unlearning leaves the shared cross-lingual latent space largely intact in early layers, instead operating primarily in later decoding layers. This suggests that unlearning does not truly erase knowledge, but rather induces superficial suppression. Exploiting this structure, a single inference-time steering direction reverses much of this suppression across languages, recovering 50% (Qwen) and 90% (Gemma) of the unlearned knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)は、センシティブな事実を記憶し、コストのかかる再トレーニングなしに対象とする知識を除去する未学習の手法を動機付ける。
しかし、未学習の研究は英語中心のままである。
我々は,TOFUベンチマークを5つの言語に拡張し,微調整,未学習,問合せを行うことで,多言語アンラーニングを研究している。
未学習言語以外の言語で事実を“忘れる”ための未学習モデルであるアンラーニングトランスファー(unlearning Transfer)は,スクリプトとファミリーを共有する言語間で最強であり,どのクエリ言語が最強の転送をもたらすかを,未学習言語が予測していることを示す。
レイヤワイズ分析により、未学習の言語間ラテント空間は、初期層でほとんど無傷であり、主に後続の復号層で機能することが明らかになった。
これは、未学習が知識を真に消し去るのではなく、表面的な抑制を引き起こすことを示唆している。
この構造をエクスプロイトし、単一の推論時ステアリングの方向は言語間でこの抑制の多くを逆転させ、未学習の知識の50% (Qwen) と90% (Gemma) を回復させる。
関連論文リスト
- Evaluating Cross-Lingual Unlearning in Multilingual Language Models [7.530890774798437]
部分空間射影は最小の劣化を伴って強い言語間忘れを実現する。
重み空間の幾何に依拠し、将来の未学習システムに対するサブスペースベースのアプローチを動機付けていることを示す。
論文 参考訳(メタデータ) (2026-01-10T20:27:32Z) - Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs [24.59074126514084]
我々は,データアンラーニングと概念アンラーニングという2つの設定の下で,Aya-Expanse 8Bモデルを用いて多言語アンラーニングを研究する。
実際の知識とステレオタイプに関するベンチマークを、翻訳によって10言語に拡張する。
実験の結果,高出力言語では非学習がより安定であり,非対称な伝達効果がタイポロジー関連言語間で観測されることがわかった。
論文 参考訳(メタデータ) (2026-01-09T08:59:42Z) - Tracing Multilingual Factual Knowledge Acquisition in Pretraining [83.93508231653091]
大規模言語モデル(LLM)は、事前学習データに存在する多言語事実知識をリコールすることができる。
我々は,OLMo-7Bに焦点をあてて,事前学習中に現実のリコールと言語間の整合性がどのように進化するかを辿った。
ほとんどの言語では、正確性と一貫性が時間の経過とともに向上していることが分かりました。
論文 参考訳(メタデータ) (2025-05-20T18:39:56Z) - Learn and Unlearn: Addressing Misinformation in Multilingual LLMs [11.179559502645697]
本稿では,多言語大言語モデル(LLM)における有害情報の伝播について検討する。
フェイク情報は、どのような言語であっても、異なる言語にまたがって広がり、生成されたコンテンツの完全性と信頼性を損なう。
標準のアンラーニング技術は、典型的には英語データに焦点を当てるが、多言語文脈における有害なコンテンツの拡散を緩和するには不十分である。
論文 参考訳(メタデータ) (2024-06-19T18:01:08Z) - Cross-Lingual Unlearning of Selective Knowledge in Multilingual Language Models [38.10962690551031]
事前訓練された言語モデルは、プライベートデータや著作権データを含む膨大な量の情報を記憶し、重大な安全上の懸念を提起する。
センシティブなデータを除いた後、これらのモデルをリトレーニングすることは違法に高価であり、機械学習は実用的で費用対効果の高い代替手段となる。
本稿では,多言語モデルにおける機械学習の先駆的アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-18T07:40:18Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language Representation Projection: Can We Transfer Factual Knowledge
across Languages in Multilingual Language Models? [48.88328580373103]
パラメータフリーの$textbfL$anguage $textbfR$epresentation $textbfP$rojection Module (LRP2)を提案する。
第1のモジュールは非英語の表現を英語のような同値に変換し、第2のモジュールは英語のような表現を対応する非英語の表現に戻す。
mLAMAデータセットによる実験結果から,LRP2は事実知識検索の精度を大幅に向上し,多種多様な非英語言語間の知識伝達を容易にすることが示された。
論文 参考訳(メタデータ) (2023-11-07T08:16:16Z) - Towards continually learning new languages [66.36852845415916]
言語のバッチ学習は経済的に有益だが、大きな課題は破滅的な忘れ方だ。
我々は,破滅的忘れを抑えるために,重量分解特性と弾性重みの固化特性を組み合わせる。
私たちは、すべての言語をゼロからトレーニングするのに比べ、破滅的な忘れものもなく、合理的なパフォーマンスで26の言語を達成しています。
論文 参考訳(メタデータ) (2022-11-21T18:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。