論文の概要: Rendering Data Unlearnable by Exploiting LLM Alignment Mechanisms
- arxiv url: http://arxiv.org/abs/2601.03401v1
- Date: Tue, 06 Jan 2026 20:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.068455
- Title: Rendering Data Unlearnable by Exploiting LLM Alignment Mechanisms
- Title(参考訳): LLMアライメント機構の爆発による学習不能なレンダリング
- Authors: Ruihan Zhang, Jun Sun,
- Abstract要約: 大規模言語モデル(LLM)は、大規模で異質なテキストコーパスでますます訓練されている。
これは、モデルトレーニング中にプロプライエタリまたは個人データの使用が許可されていないという深刻な懸念を引き起こす。
本研究では, LLM に読み書き不能なテキストを描画する新しいデータレベルディフェンスである Disclaimer Injection を提案する。
- 参考スコア(独自算出の注目度): 3.648393062009244
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly trained on massive, heterogeneous text corpora, raising serious concerns about the unauthorised use of proprietary or personal data during model training. In this work, we address the problem of data protection against unwanted model learning in a realistic black-box setting. We propose Disclaimer Injection, a novel data-level defence that renders text unlearnable to LLMs. Rather than relying on model-side controls or explicit data removal, our approach exploits the models' own alignment mechanisms: by injecting carefully designed alignment-triggering disclaimers to prevent effective learning. Through layer-wise analysis, we find that fine-tuning on such protected data induces persistent activation of alignment-related layers, causing alignment constraints to override task learning even on common inputs. Consequently, models trained on such data exhibit substantial and systematic performance degradation compared to standard fine-tuning. Our results identify alignment behaviour as a previously unexplored lever for data protection and, to our knowledge, present the first practical method for restricting data learnability at LLM scale without requiring access to or modification of the training pipeline.
- Abstract(参考訳): 大規模言語モデル(LLM)は、大規模で異質なテキストコーパスでますます訓練されており、モデルトレーニング中にプロプライエタリまたは個人データの使用が許可されていないという深刻な懸念を提起している。
本研究では,現実的なブラックボックス環境において,不要なモデル学習に対するデータ保護の問題に対処する。
本研究では, LLM に読み書き不能なテキストを描画する新しいデータレベルディフェンスである Disclaimer Injection を提案する。
モデルサイドのコントロールや明示的なデータ削除に頼るのではなく、我々のアプローチはモデル自身のアライメントメカニズムを利用しています。
レイヤワイズ分析により、このような保護されたデータの微調整はアライメント関連レイヤの持続的な活性化を誘導し、共通入力においてもアライメント制約がタスク学習をオーバーライドさせることがわかった。
その結果、そのようなデータに基づいてトレーニングされたモデルは、標準的な微調整と比較して、実質的かつ体系的な性能劣化を示す。
この結果から,アライメント動作をデータ保護のための未探索レバーとして認識し,トレーニングパイプラインへのアクセスや修正を必要とせず,LLMスケールでデータ学習性を制限するための最初の実践的手法を提案する。
関連論文リスト
- Forgetting-MarI: LLM Unlearning via Marginal Information Regularization [6.979586479353831]
既存の未学習のメソッドは、特定のデータを“忘れる”場合に必要以上の情報を取り除くことで、モデルのパフォーマンスを劣化させることが多い。
我々は,LLMアンラーニングフレームワークであるForgetting-MarIを紹介した。
限界情報をペナル化することにより、トレーニングされたモデルにおける未学習データセットの残差の影響を明示的に上限付けし、証明不能な検出を可能にする。
論文 参考訳(メタデータ) (2025-11-14T22:48:39Z) - Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection [17.369869625390894]
本稿では,機械学習における形態素表現投影(MRP)手法を提案する。
特定のネットワーク層の隠れ状態空間にプロジェクティブ変換を実装することにより,有用な知識を保ちながら有害情報を効果的に除去する。
実験により,本手法は効果的な継続的アンラーニングを可能にし,再学習攻撃に対する防御に成功していることが示された。
論文 参考訳(メタデータ) (2025-08-21T11:12:09Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。