論文の概要: From Logits to Latents: Contrastive Representation Shaping for LLM Unlearning
- arxiv url: http://arxiv.org/abs/2601.22028v1
- Date: Thu, 29 Jan 2026 17:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.046536
- Title: From Logits to Latents: Contrastive Representation Shaping for LLM Unlearning
- Title(参考訳): 論理学から潜伏学へ:LLMアンラーニングのためのコントラスト表現形成
- Authors: Haoran Tang, Rajiv Khanna,
- Abstract要約: 私たちはCLRegという表現正規化ツールを導入しました。
表現の整形と絡み合いの低減を関連づける第1の理論的洞察を提供する。
CLRegは、プライバシのリスクを余分に課すことなく、主流のアンラーニングメソッドを容易にする、忘れがちな表現の絡みを減少させる。
- 参考スコア(独自算出の注目度): 13.726373414710137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most LLM unlearning methods aim to approximate retrain-from-scratch behaviors with minimal distribution shift, often via alignment-style objectives defined in the prediction space. While effective at reducing forgotten content generation, such approaches may act as suppression: forgotten concepts can persist in representations and remain entangled with retained knowledge. We introduce CLReg, a contrastive representation regularizer that identifies forget features while pushing them away from retain features, explicitly reducing forget-retain interference with minimal shifts on retain features. We provide first theoretical insights that relate representation shaping to entanglement reduction. Across unlearning benchmarks and LLMs of different sizes, CLReg decreases forget-retain representation entanglement that facilitates mainstream unlearning methods without positing extra privacy risks, inspiring future work that reshapes the representation space to remove forget concepts.
- Abstract(参考訳): ほとんどのLLMアンラーニング手法は、予測空間で定義されたアライメントスタイルの目的を通して、最小分布シフトでスクラッチから再訓練の振る舞いを近似することを目的としている。
忘れられた概念は表現に留まり、保持された知識に縛られ続けることができる。
我々はCLRegを紹介した。これはコントラッシブな表現正規化ツールで、機能の保持から切り離したまま機能の保持を識別し、機能の保持を最小限に抑えることで、リフレッシュ/保持の干渉を明示的に低減する。
表現の整形と絡み合いの低減を関連づける第1の理論的洞察を提供する。
未学習のベンチマークと異なるサイズのLLM全体にわたって、CLRegは、プライバシのリスクを伴わずに、主流の未学習メソッドを促進する、忘れられたままの表現の絡み合いを減らし、表現空間を再活性化して概念を削除する、将来の作業を促す。
関連論文リスト
- CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models [60.610268549138375]
拡散モデルは意図せずトレーニング例を再現し、プライバシーと著作権の懸念を高めることができる。
CAPTAINはトレーニング不要のフレームワークで,聴覚障害時に潜伏した特徴を直接修正することで記憶を緩和する。
論文 参考訳(メタデータ) (2025-12-11T14:01:47Z) - Unconsciously Forget: Mitigating Memorization; Without Knowing What is being Memorized [41.5028352241977]
トレーニングデータの記憶は、著作権侵害、肖像画権侵害、商標侵害などの法的問題につながる可能性がある。
我々の研究は、モデルの特定の部分が著作権のあるコンテンツ生成に責任があることを実証している。
モデルプルーニングを適用することで、特定の概念を目標にすることなく、著作権のあるコンテンツを生成する確率を効果的に抑えることができる。
論文 参考訳(メタデータ) (2025-12-10T14:36:12Z) - Sparse Attention Post-Training for Mechanistic Interpretability [55.030850996535776]
本稿では,トランスフォーマーの注意を犠牲にすることなく,簡易なポストトレーニング手法を提案する。
制約された余剰目的の下でフレキシブルな空間規則化を適用することで、1Bパラメータまでのモデルで、初期トレーニング損失を抑えつつ、注意接続性を$approx 0.3 %に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-12-05T16:40:08Z) - Towards Benign Memory Forgetting for Selective Multimodal Large Language Model Unlearning [49.274436951541425]
MLLM(Multimodal Large Language Models)は優れた能力を発揮するが、プライバシーに敏感な情報を不注意に記憶することができる。
既存の未学習の手法は、しばしばモデルの一般的な画像理解性能を劣化させるため、良心的な忘れを達成できない。
本稿では, メモリ領域のメモリ領域への忘れを抑えつつ, 全体的な機能を維持するSculpted Forgetting Adapter (SMFA)を提案する。
論文 参考訳(メタデータ) (2025-11-25T11:22:45Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Chroma-VAE: Mitigating Shortcut Learning with Generative Classifiers [44.97660597940641]
生成モデルだけではショートカット学習を防ぐには不十分であることを示す。
特にChroma-VAE(英語版)を提案する。これは、VAEが最初、小さな潜伏部分空間でショートカットを分離するために訓練される2段階のアプローチである。
ベンチマークや実世界のショートカット学習におけるクロマVAEの有効性の実証に加えて, 生成型分類器の潜時空間を操作して, 特定の相関関係を分離・解釈する可能性を強調した。
論文 参考訳(メタデータ) (2022-11-28T11:27:50Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。