論文の概要: Uncovering the Potential Risks in Unlearning: Danger of English-only Unlearning in Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2510.23949v1
- Date: Tue, 28 Oct 2025 00:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.691512
- Title: Uncovering the Potential Risks in Unlearning: Danger of English-only Unlearning in Multilingual LLMs
- Title(参考訳): アンラーニングの潜在的なリスクを明らかにする:多言語LLMにおける英語のみのアンラーニングの危険性
- Authors: Kyomin Hwang, Hyeonjin Kim, Seungyeon Kim, Sunghyun Wee, Nojun Kwak,
- Abstract要約: N-gram-based Language-Mix (N-Mix) スコアを導入し,多言語LLMにおいて言語混同が広範かつ一貫性があることを定量的に示す。
N-Mixスコアが高い場合,基準に基づく測定値が偽陰性となり,新しいタイプの未学習評価の必要性が示唆された。
- 参考スコア(独自算出の注目度): 29.69282972994522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There have been a couple of studies showing that attempting to erase multilingual knowledge using only English data is insufficient for multilingual LLMs. However, their analyses remain highly performance-oriented. In this paper, we switch the point of view to evaluation, and address an additional blind spot which reveals itself when the multilingual LLM is fully finetuned with parallel multilingual dataset before unlearning. Here, language confusion occurs whereby a model responds in language different from that of the input prompt. Language confusion is a problematic phenomenon in unlearning, causing the standard reference-based metrics to fail. We tackle this phenomenon in three steps: (1) introduce N-gram-based Language-Mix (N-Mix) score to quantitatively show the language confusion is pervasive and consistent in multilingual LLMs, (2) demonstrate that reference-based metrics result in false negatives when N-Mix score is high, and(3) suggest the need of new type of unlearning evaluation that can directly assess the content of the generated sentences. We call this type of metrics as semantic-based metric.
- Abstract(参考訳): 英語データのみを用いて多言語知識を消去しようとする試みは多言語LLMには不十分であることを示す研究がいくつかある。
しかし、それらの分析は依然として高いパフォーマンスを指向している。
本稿では、視点を評価に切り替え、学習前に多言語 LLM が並列多言語データセットで完全に微調整されたときに現れる盲点に対処する。
ここでは、入力プロンプトと異なる言語でモデルが応答する言語混乱が発生する。
言語の混乱は、アンラーニングにおいて問題となる現象であり、標準基準ベースのメトリクスが失敗する。
我々は,(1)N-gram-based Language-Mix (N-Mix) スコアを導入し,多言語LLMにおいて言語混同が広範かつ一貫性があることを定量的に示すこと,(2)N-Mix スコアが高い場合に基準ベースのメトリクスが偽陰性をもたらすこと,(3) 生成された文の内容を直接評価できる新しいタイプの未学習評価の必要性を示唆すること,の3つのステップに対処する。
このタイプのメトリクスを意味ベースのメトリクスと呼びます。
関連論文リスト
- Evaluating Cross-Lingual Unlearning in Multilingual Language Models [7.530890774798437]
部分空間射影は最小の劣化を伴って強い言語間忘れを実現する。
重み空間の幾何に依拠し、将来の未学習システムに対するサブスペースベースのアプローチを動機付けていることを示す。
論文 参考訳(メタデータ) (2026-01-10T20:27:32Z) - CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy Abstention [9.76878200328024]
大規模言語モデル (LLM) はしばしば言語間の知識格差を示す。
textitCausalAbstain は LLM が複数のフィードバック応答を利用するかどうかを判断するのに役立つ手法である。
textitCausalAbstainは有用なフィードバックを効果的に選択し、解釈可能性による禁忌決定を強化する。
論文 参考訳(メタデータ) (2025-05-31T11:35:31Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models [49.16690802656554]
複数の言語で意味論的に等価なプロンプトに対して一貫した応答を提供するのに、多言語の事実モデルでは苦労していることがわかった。
最終層での計算をバイパスし,予測精度と言語間の整合性を向上する線形ショートカット手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T19:43:10Z) - Guardians of Discourse: Evaluating LLMs on Multilingual Offensive Language Detection [10.129235204880443]
非英語文脈におけるタスクに対する異なるプロンプト言語と拡張翻訳データの影響を評価する。
本稿では, LLMにおける固有バイアスと, センシティブなトピックに関する誤予測におけるデータセットの影響について論じる。
論文 参考訳(メタデータ) (2024-10-21T04:08:16Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.524375463656369]
言語アクセプタビリティの多言語評価 -- MELA -- 10言語を対象とする46Kのサンプルを用いて、言語アクセプタビリティに関する最も大きなベンチマークを提示する。
多言語解釈可能性の追求において, 微調整XLM-Rを用いた探索実験を行った。
言語間移動実験は、受容可能性判定における伝達が非自明であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。