Fugu-MT 論文翻訳(概要): Rethinking LLM Memorization through the Lens of Adversarial Compression

論文の概要: Rethinking LLM Memorization through the Lens of Adversarial Compression

arxiv url: http://arxiv.org/abs/2404.15146v2
Date: Mon, 1 Jul 2024 14:43:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:29:42.328435
Title: Rethinking LLM Memorization through the Lens of Adversarial Compression
Title（参考訳）: 逆圧縮レンズによるLDM記憶の再考
Authors: Avi Schwarzschild, Zhili Feng, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter,
Abstract要約: Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
参考スコア（独自算出の注目度）: 93.13830893086681
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) trained on web-scale datasets raise substantial concerns regarding permissible data usage. One major question is whether these models "memorize" all their training data or they integrate many data sources in some way more akin to how a human would learn and synthesize information. The answer hinges, to a large degree, on how we define memorization. In this work, we propose the Adversarial Compression Ratio (ACR) as a metric for assessing memorization in LLMs. A given string from the training data is considered memorized if it can be elicited by a prompt (much) shorter than the string itself -- in other words, if these strings can be "compressed" with the model by computing adversarial prompts of fewer tokens. The ACR overcomes the limitations of existing notions of memorization by (i) offering an adversarial view of measuring memorization, especially for monitoring unlearning and compliance; and (ii) allowing for the flexibility to measure memorization for arbitrary strings at a reasonably low compute. Our definition serves as a practical tool for determining when model owners may be violating terms around data usage, providing a potential legal tool and a critical lens through which to address such scenarios.
Abstract（参考訳）: Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。その答えは、どのように記憶を定義するかに大きく左右される。本研究では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。トレーニングデータから与えられた文字列は、文字列自体よりも短いプロンプト(マス)で引き起こせる場合、記憶される。 ACRは、記憶の既存の概念の限界を克服する一暗記の計測、特に未学習及びコンプライアンスの監視の逆視を提供すること。 (ii)任意の文字列のメモリ化を適度に低い計算で測定できる柔軟性を実現する。私たちの定義は、モデル所有者がデータ使用に関する条件に違反しているかどうかを判断する実用的なツールとして機能し、そのようなシナリオに対処する潜在的な法的ツールとクリティカルレンズを提供する。

関連論文リスト

Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models [13.249913291727042]
大規模なコーパスでトレーニングされた大規模な言語モデルは、トレーニングデータの冗長な記憶がちで、プライバシーと著作権の重大なリスクが生じる。マルチメモリ化という新しいフレームワークを紹介します。我々は、外部の敵探索がそれを引き起こす異なる接頭辞のターゲット数を特定することができれば、シーケンスを記憶として定義することでこれを定量化する。
論文参考訳（メタデータ） (2025-11-25T19:40:24Z)
Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。 CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文参考訳（メタデータ） (2025-09-17T07:12:35Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文参考訳（メタデータ） (2025-03-04T05:39:24Z)
LightThinker: Thinking Step-by-Step Compression [53.8069487638972]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-21T16:57:22Z)
Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。 LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文参考訳（メタデータ） (2024-09-20T18:56:32Z)
Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文参考訳（メタデータ） (2024-06-17T19:11:40Z)
SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。 LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文参考訳（メタデータ） (2023-10-24T14:25:53Z)
Quantifying and Analyzing Entity-level Memorization in Large Language Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。記憶から生じるプライバシーリスクが注目されている。実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文参考訳（メタデータ） (2023-08-30T03:06:47Z)
Unveiling Memorization in Code Models [13.867618700182486]
コードモデルは、脆弱性や機密情報、厳格なライセンスを持つコードを含む可能性のあるソースコードの冗長性を記憶し、生成する。本稿では,学習データをどの程度記憶するコードモデルについて検討する。 3つのカテゴリと14のサブカテゴリで記憶されたコンテンツの分類を構築します。
論文参考訳（メタデータ） (2023-08-19T07:25:39Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
Mitigating Approximate Memorization in Language Models via Dissimilarity Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。 LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文参考訳（メタデータ） (2023-05-02T15:53:28Z)
Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文参考訳（メタデータ） (2022-10-31T17:57:55Z)
Towards Differential Relational Privacy and its use in Question Answering [109.4452196071872]
データセット内のエンティティ間の関係の記憶は、トレーニングされた質問応答モデルを使用する場合、プライバシの問題につながる可能性がある。我々はこの現象を定量化し、微分プライバシー(DPRP)の定義を可能にする。質問回答のための大規模モデルを用いた実験において,概念を解説する。
論文参考訳（メタデータ） (2022-03-30T22:59:24Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。