論文の概要: Mitigating Memorization in LLMs using Activation Steering
- arxiv url: http://arxiv.org/abs/2503.06040v1
- Date: Sat, 08 Mar 2025 03:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:07.317911
- Title: Mitigating Memorization in LLMs using Activation Steering
- Title(参考訳): アクティベーションステアリングによるLDMの記憶緩和
- Authors: Manan Suri, Nishit Anand, Amisha Bhaskar,
- Abstract要約: LLM(Large Language Models)によるトレーニングデータの記憶は、プライバシー漏洩や著作権付きコンテンツの復活など、重大なリスクをもたらす。
モデルアクティベーションに直接介入するアクティベーションステアリング(Activation steering)は、LSMを操作するための有望なアプローチとして登場した。
- 参考スコア(独自算出の注目度): 3.5782765808288475
- License:
- Abstract: The memorization of training data by Large Language Models (LLMs) poses significant risks, including privacy leaks and the regurgitation of copyrighted content. Activation steering, a technique that directly intervenes in model activations, has emerged as a promising approach for manipulating LLMs. In this work, we explore the effectiveness of activation steering in reducing memorization while preserving generalization capabilities. We conduct empirical evaluations using a controlled memorization benchmark of literary material and demonstrate that our method successfully suppresses memorized content with minimal degradation in model performance in Gemma. Additionally, we analyze the trade-offs between suppression effectiveness and linguistic fluency, highlighting the advantages and limitations of activation-based interventions. Our findings contribute to ongoing efforts in developing safer and more privacy-preserving LLMs by providing a practical and efficient mechanism to mitigate unintended memorization.
- Abstract(参考訳): LLM(Large Language Models)によるトレーニングデータの記憶は、プライバシー漏洩や著作権付きコンテンツの復活など、重大なリスクをもたらす。
モデルアクティベーションに直接介入するアクティベーションステアリング(Activation steering)は、LSMを操作するための有望なアプローチとして登場した。
本研究では,活性化ステアリングが一般化能力を保ちながら記憶力を低下させる効果について検討する。
本手法は,Gemmaのモデル性能の低下を最小限に抑えつつ,記憶内容の抑制に成功していることを示す。
さらに,抑制効果と言語流布のトレードオフを分析し,アクティベーションに基づく介入の利点と限界を明らかにする。
本研究は、意図しない記憶を緩和するための実用的で効率的なメカニズムを提供することにより、より安全でプライバシー保護のLLMを開発するための継続的な取り組みに寄与する。
関連論文リスト
- Detecting Memorization in Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。
従来の暗記検出方法は出力確率や損失関数に依存している。
LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T00:17:43Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Ingest-And-Ground: Dispelling Hallucinations from Continually-Pretrained LLMs with RAG [2.7972592976232833]
プライバシ固有の知識ベースでベースLLMモデルを継続的に事前トレーニングし、セマンティックRAGレイヤで拡張します。
提案手法は,プライバシ関連クエリの処理において,モデル性能を向上することを示す。
論文 参考訳(メタデータ) (2024-09-30T20:32:29Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。