論文の概要: Obliviate: Efficient Unmemorization for Protecting Intellectual Property in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.15010v2
- Date: Thu, 12 Jun 2025 10:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.160342
- Title: Obliviate: Efficient Unmemorization for Protecting Intellectual Property in Large Language Models
- Title(参考訳): Obliviate: 大規模言語モデルにおける知的財産保護のための効率的なアンメモリ化
- Authors: Mark Russinovich, Ahmed Salem,
- Abstract要約: 本稿では,特定の配列の正確な複製を外科的に抑制する軽量な方法であるObliviateを紹介する。
Obliviateはまず記憶されたパスを特定し、次に各ターゲットトークンに対して、モデルの出力分布を最小限に調整する。
Obliviate を4つの一般的な 6-8B- パラメータモデル (LLaMA-3.1, LLaMA-3.1-インストラクト, Qwen-2.5, Yi-1.5) 上で, 合成ベンチマークと有機著作権抽出を用いて評価した。
- 参考スコア(独自算出の注目度): 2.7174461714624805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent copyright agreements between AI companies and content creators underscore the need for fine-grained control over language models' ability to reproduce copyrighted text. Existing defenses-ranging from aggressive unlearning to simplistic output filters-either sacrifice model utility or inadequately address verbatim leakage. We introduce Obliviate, a lightweight post-training method that surgically suppresses exact reproduction of specified sequences while preserving semantic understanding. Obliviate first identifies memorized passages and then, for each target token, minimally adjusts the model's output distribution via a Kullback-Leibler divergence penalty to drive down the probability of exact reproduction. Simultaneously, we enforce a consistency loss on non-target tokens to retain the model's fluency and task performance. We evaluate Obliviate on four popular 6-8B-parameter models (LLaMA-3.1, LLaMA-3.1-Instruct, Qwen-2.5, and Yi-1.5) using synthetic memorization benchmarks and organic copyrighted excerpts (e.g., Moby Dick, Frankenstein, Alice in Wonderland and Les Miserables). Across all settings, Obliviate reduces verbatim recall by two orders of magnitude (e.g., from hundreds of words to fewer than 12) while degrading downstream accuracy by at most 1% on HellaSwag, MMLU, TruthfulQA, and Winogrande. Furthermore, we benchmark Obliviate aganist different unlearning and copyright techniques using the MUSE and CoTaEval benchmarks. These results position Obliviate as a practical, high-fidelity solution for copyright compliance in deployed LLMs.
- Abstract(参考訳): 近年のAI企業とコンテンツクリエーター間の著作権協定は、著作権付きテキストを再生する言語モデルの能力をきめ細かい制御する必要性を浮き彫りにしている。
既存の防御は、アグレッシブ・アンラーニングから単純化された出力フィルタ、犠牲モデルユーティリティ、あるいは不適切な冗長リークに対処する。
Obliviateは、意味的理解を維持しつつ、特定の配列の正確な複製を外科的に抑制する軽量なポストトレーニング手法である。
Obliviateはまず記憶されたパスを特定し、次に各ターゲットトークンに対して、Kullback-Leibler分散ペナルティを介してモデルの出力分布を最小限に調整し、正確な複製の確率を下げる。
同時に、モデルの流速とタスク性能を維持するために、非ターゲットトークンに一貫性損失を強制する。
Obliviate on four popular 6-8B-parameter model (LLaMA-3.1, LLaMA-3.1-Instruct, Qwen-2.5, Yi-1.5) using synthetic memorization benchmarks and organic copyrighted excerpts (e g , Moby Dick, Frankenstein, Alice in Wonderland and Les Miserables)。
すべての設定において、Obliviateは動詞のリコールを2桁(例:数百ワードから12ワード未満)削減すると同時に、HellaSwag、MMLU、TruthfulQA、Winograndeのダウンストリーム精度を少なくとも1%低下させる。
さらに、MUSEとCoTaEvalのベンチマークを用いて、Obliviate Aganistの異なる未学習および著作権のテクニックをベンチマークする。
これらの結果は、Obliviateを、デプロイされたLLMにおける著作権コンプライアンスのための実用的で高忠実なソリューションとして位置づけている。
関連論文リスト
- Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [10.971976066073442]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。
既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。
この共有語彙制約を除去する3つの新しいSD手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T19:13:58Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Investigating the Feasibility of Mitigating Potential Copyright Infringement via Large Language Model Unlearning [0.0]
LLM(Pre-trained Large Language Models)は、優れた能力を示すと同時に、著作権のある資料の学習と生成によるリスクも生んでいる。
本研究では,LLMから複数の時間ステップで著作権付きコンテンツを解放する新しいフレームワークであるSSU(Stable Sequential Unlearning)を提案する。
SSUは時に、未学習の有効性と汎用言語能力の効果的なトレードオフを達成し、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2024-12-16T20:01:06Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Avoiding Copyright Infringement via Large Language Model Unlearning [24.050754626661124]
本稿では,複数段階にわたる大規模言語モデルから著作権付きコンテンツを解放するための新しいフレームワークを提案する。
ランダムなラベリング損失を導入し、モデルの汎用的知識を確実に維持することにより、未学習の有効性を向上させる。
実験結果から,SSUは未学習の有効性と汎用言語能力とのトレードオフを効果的に達成できることが示された。
論文 参考訳(メタデータ) (2024-06-16T14:12:37Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。