Fugu-MT 論文翻訳(概要): Layer-Targeted Multilingual Knowledge Erasure in Large Language Models

論文の概要: Layer-Targeted Multilingual Knowledge Erasure in Large Language Models

arxiv url: http://arxiv.org/abs/2602.22562v1
Date: Thu, 26 Feb 2026 03:00:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.499943
Title: Layer-Targeted Multilingual Knowledge Erasure in Large Language Models
Title（参考訳）: 大規模言語モデルにおける階層型多言語知識の消去
Authors: Taoran Li, Varun Chandrasekaran, Zhiyuan Yu,
Abstract要約: 多言語一般化を決定する鍵因子として介入深さを同定する。本稿では,CKA(Centered Kernel Alignment)とLRDS(Lingguistic Regions Development Score)を用いて,中間的言語に依存しないレイヤを識別するフレームワークMUTEを提案する。
参考スコア（独自算出の注目度）: 15.409568435026015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has demonstrated that machine unlearning in Large Language Models (LLMs) fails to generalize across languages: knowledge erased in one language frequently remains accessible through others. However, the underlying cause of this failure and a principled solution remain open. In this work, we identify intervention depth as the key factor determining multilingual generalization. Through systematic layer-wise experiments, we characterize two distinct failure modes: shallow-layer interventions achieve erasure but collapse multilingual capabilities in held-out languages, while deep-layer interventions preserve utility but fail to erase target knowledge even in source languages. These findings reveal that the choice of intervention layer is not a free parameter; it fundamentally determines whether multilingual unlearning succeeds. We propose MUTE (Multilingual Unlearning via Targeted Erasure), a framework that uses Centered Kernel Alignment (CKA) and Linguistic Regions Development Score (LRDS) to identify intermediate, language-agnostic layers where cross-lingual representations converge. By restricting unlearning updates to these layers, MUTE achieves robust multilingual knowledge erasure while optimizing on only a small set of source languages. Extensive experiments across three LLM architectures and three unlearning algorithms validate our approach, with mechanistic analysis via Logit Lens probing confirming genuine knowledge removal rather than output-level suppression.
Abstract（参考訳）: 最近の研究は、Large Language Models(LLM)における機械学習が言語全体にわたって一般化できないことを示した。しかし、この失敗の根本原因と原則化された解決策は未解決のままである。本研究では,多言語一般化を決定する重要な要因として介入深度を同定する。階層的な実験を通して、我々は2つの異なる障害モードを特徴づける: 浅い層的介入は、保持言語における消去を実現するが、多言語的能力は崩壊する一方、深い層的介入は実用性を維持するが、ソース言語においてもターゲットとなる知識を消し去ることができない。これらの結果から,介入層の選択は自由パラメータではなく,多言語未学習が成功するか否かを根本的に決定することが明らかとなった。本稿では,CKA (Centered Kernel Alignment) とLRDS (Lingistic Regions Development Score) を用いて,言語間表現が収束する中間的言語に依存しない層を識別するフレームワークMUTEを提案する。これらのレイヤの未学習更新を制限することで、MUTEは、少数のソース言語のみを最適化しながら、堅牢な多言語知識の消去を実現する。 3つのLLMアーキテクチャと3つの未学習アルゴリズムにわたる広範囲な実験により、出力レベルの抑制よりも真の知識除去を実証するLogit Lensによる力学解析により、我々のアプローチが検証される。

関連論文リスト

Evaluating Cross-Lingual Unlearning in Multilingual Language Models [7.530890774798437]
部分空間射影は最小の劣化を伴って強い言語間忘れを実現する。重み空間の幾何に依拠し、将来の未学習システムに対するサブスペースベースのアプローチを動機付けていることを示す。
論文参考訳（メタデータ） (2026-01-10T20:27:32Z)
CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy Abstention [9.76878200328024]
大規模言語モデル (LLM) はしばしば言語間の知識格差を示す。 textitCausalAbstain は LLM が複数のフィードバック応答を利用するかどうかを判断するのに役立つ手法である。 textitCausalAbstainは有用なフィードバックを効果的に選択し、解釈可能性による禁忌決定を強化する。
論文参考訳（メタデータ） (2025-05-31T11:35:31Z)
Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline [36.2731426595852]
その結果,多言語大言語モデル (LLM) は,他の言語に比べて,実際のリコールタスクにおいて有意に優れた性能を示すことがわかった。事実的リコールのための信頼性の高い英語中心のメカニズムの関与が不十分なことと、ターゲット言語への英語からの誤った翻訳である。我々の介入によって、最低パフォーマンス言語では、リコール精度が35%以上向上しました。
論文参考訳（メタデータ） (2025-05-26T22:20:45Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models [49.16690802656554]
複数の言語で意味論的に等価なプロンプトに対して一貫した応答を提供するのに、多言語の事実モデルでは苦労していることがわかった。最終層での計算をバイパスし,予測精度と言語間の整合性を向上する線形ショートカット手法を提案する。
論文参考訳（メタデータ） (2025-04-05T19:43:10Z)
How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文参考訳（メタデータ） (2024-10-18T11:39:34Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。 Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか? 本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文参考訳（メタデータ） (2024-01-11T09:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。