論文の概要: A Lightweight Method to Disrupt Memorized Sequences in LLM
- arxiv url: http://arxiv.org/abs/2502.05159v2
- Date: Tue, 27 May 2025 16:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.162624
- Title: A Lightweight Method to Disrupt Memorized Sequences in LLM
- Title(参考訳): LLMにおける記憶配列を乱す軽量化法
- Authors: Parjanya Prajakta Prashant, Kaustubh Ponkshe, Babak Salimi,
- Abstract要約: 言語モデルがスケールするにつれて、そのパフォーマンスは幅広いタスクにわたって劇的に向上するが、トレーニングデータの一部を暗記し、復調する傾向がある。
差分プライバシーやモデルアンラーニングのような既存の緩和技術は、ほとんどのユーザにとって実用的でないように、内部重み付けの再訓練やアクセスを必要とすることが多い。
TokenSwapは、トークンレベルの出力しかアクセスできない現実的な設定のために設計された軽量でポストホックな防御システムである。
- 参考スコア(独自算出の注目度): 7.144800814025392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models scale, their performance improves dramatically across a wide range of tasks, but so does their tendency to memorize and regurgitate parts of their training data verbatim. This tradeoff poses serious legal, ethical, and safety concerns, especially in real-world deployments. Existing mitigation techniques, such as differential privacy or model unlearning, often require retraining or access to internal weights making them impractical for most users. In this work, we introduce TokenSwap, a lightweight, post-hoc defense designed for realistic settings where the user can only access token-level outputs. Our key insight is that while large models are necessary for high task performance, small models (e.g., DistilGPT-2) are often sufficient to assign fluent, grammatically plausible probabilities to common function words - and crucially, they memorize far less. By selectively swapping token probabilities between models, TokenSwap preserves the capabilities of large models while reducing their propensity for verbatim reproduction. Evaluations on Pythia-6.9B and Llama-3-8B show up to a 10$\times$ drop in exact memorization with negligible task degradation. Our method offers a practical, accessible solution for mitigating memorized generation in deployed LLMs.
- Abstract(参考訳): 言語モデルがスケールするにつれて、そのパフォーマンスは幅広いタスクにわたって劇的に向上するが、トレーニングデータの一部を暗記し、復調する傾向がある。
このトレードオフは、特に現実世界の展開において、重大な法的、倫理的、安全上の懸念をもたらす。
差分プライバシーやモデルアンラーニングのような既存の緩和技術は、ほとんどのユーザにとって実用的でないように、内部重み付けの再訓練やアクセスを必要とすることが多い。
本研究ではトークンレベルの出力しかアクセスできない現実的な設定のために設計された軽量でポストホックな防御機能であるTokenSwapを紹介する。
我々の重要な洞察は、大きなモデルは高いタスクパフォーマンスに必要であるが、小さなモデル(例: DistilGPT-2)は、しばしば、流動的で文法的に妥当な確率を一般的な関数語に割り当てるのに十分である。
TokenSwapは、モデル間でトークンの確率を選択的に交換することで、大きなモデルの能力を保ちながら、冗長な再現の確率を下げる。
Pythia-6.9B と Llama-3-8B の評価は、10$\times$ drop in exact memorization with negligible task degradation である。
本手法は, LLM の記憶生成を緩和するための実用的, アクセス可能なソリューションを提供する。
関連論文リスト
- Aggressive Post-Training Compression on Extremely Large Language Models [32.589344168888914]
モデルのサイズを減らすためには、攻撃的な後トレーニングモデル圧縮が必要である。
本稿では,0.7領域以上で8ビット未満の量子化を実現する新しいネットワーク切断技術を提案する。
論文 参考訳(メタデータ) (2024-09-30T08:47:17Z) - MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts [29.593170782882563]
大きな言語モデル(LLM)は機密情報を記憶し、潜在的な誤用に対する懸念を引き起こす。
以前のプラクティスでは、実用性、効率性、堅牢性という3つの大きな課題に直面しています。
勾配降下に基づくアンラーニング手法であるMEOWを提案する。
論文 参考訳(メタデータ) (2024-09-18T09:55:48Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? [3.258629327038072]
大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。
しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。
本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
論文 参考訳(メタデータ) (2024-08-05T17:27:29Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。