論文の概要: Beyond Frequency: The Role of Redundancy in Large Language Model Memorization
- arxiv url: http://arxiv.org/abs/2506.12321v2
- Date: Fri, 29 Aug 2025 12:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 15:42:25.883986
- Title: Beyond Frequency: The Role of Redundancy in Large Language Model Memorization
- Title(参考訳): 周波数を超えて - 大規模言語モデル記憶における冗長性の役割
- Authors: Jie Zhang, Qinghua Zhao, Chi-ho Lin, Zhongfeng Kang, Lei Li,
- Abstract要約: 大規模言語モデルの記憶は、これらのシステムが数十億のパラメータにスケールするにつれて、プライバシと公正性にとって重大なリスクをもたらす。
また,非記憶標本の頻度は最小限に抑えられるが,非記憶試料の頻度は著しく増大することを示した。
以上の結果から,データ前処理における冗長性に配慮したアプローチの可能性を示唆し,プライバシのリスクを低減し,バイアスを軽減し,モデル展開の公正性を確保する。
- 参考スコア(独自算出の注目度): 13.044826650528192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memorization in large language models poses critical risks for privacy and fairness as these systems scale to billions of parameters. While previous studies established correlations between memorization and factors like token frequency and repetition patterns, we revealed distinct response patterns: frequency increases minimally impact memorized samples (e.g. 0.09) while substantially affecting non-memorized samples (e.g., 0.25), with consistency observed across model scales. Through counterfactual analysis by perturbing sample prefixes and quantifying perturbation strength through token positional changes, we demonstrate that redundancy correlates with memorization patterns. Our findings establish that: about 79% of memorized samples are low-redundancy, these low-redundancy samples exhibit 2-fold higher vulnerability than high-redundancy ones, and consequently memorized samples drop by 0.6 under perturbation while non-memorized samples drop by only 0.01, indicating that more redundant content becomes both more memorable and more fragile. These findings suggest potential redundancy-guided approaches for data preprocessing, thereby reducing privacy risks and mitigating bias to ensure fairness in model deployments.
- Abstract(参考訳): 大規模言語モデルの記憶は、これらのシステムが数十億のパラメータにスケールするにつれて、プライバシと公正性にとって重大なリスクをもたらす。
過去の研究では、暗記とトークンの頻度や繰り返しパターンなどの要因の相関関係が確立されているが、異なる応答パターンが明らかとなった。
サンプルプレフィックスの摂動解析とトークンの位置変化による摂動強度の定量化により,冗長性は記憶パターンと相関することを示した。
その結果, 暗記試料の約79%は低冗長であり, これらの低冗長試料は高冗長試料よりも2倍の脆弱性を示し, その結果, 暗記試料は摂動下で0。
これらの結果は、データ前処理に対する冗長性に基づくアプローチの可能性を示し、それによってプライバシのリスクを低減し、バイアスを軽減し、モデル展開の公正性を保証する。
関連論文リスト
- MemLens: Uncovering Memorization in LLMs with Activation Trajectories [39.5728313604839]
生成中の数値トークンの確率軌跡を解析してメモリ化を検出するために,MemLensを提案する。
提案手法では, 汚染試料はショートカットの挙動を示し, 信頼性の高い解答にロックする。
汚染された試料とクリーンな試料は, 別々に分離された推理軌道を示す。
論文 参考訳(メタデータ) (2025-09-25T08:55:18Z) - Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models [0.0]
現代の生成モデルは、競合者やベンチマークのパフォーマンスによって抽出される稀なトレーニング例を、過度に適合させ、意図せずに記憶するリスクがある。
本稿では,データ中心のフレームワークであるGenerative Data Cartography(GenDataCarto)を提案する。
本研究の記憶度スコアは, 平滑な仮定の下で古典的な影響を低く抑え, 均一な安定性境界を通した一般化ギャップを確実に減少させることを証明した。
論文 参考訳(メタデータ) (2025-08-27T05:11:06Z) - Memorization in Fine-Tuned Large Language Models [0.0]
本研究では,微調整大言語モデル(LLM)における暗記のメカニズムと要因について検討する。
薬物移動イベントのPHEEデータセットを用いて、微調整プロセスの異なる側面がトレーニングデータを記憶するモデルの適合性にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-07-28T17:22:10Z) - A Closer Look on Memorization in Tabular Diffusion Model: A Data-Centric Perspective [15.33961902853653]
生成したサンプルがレプリカとしてフラグ付けされている回数に基づいて,実サンプル毎のメモリ化を定量化する。
経験的分析により,暗記回数の重み付き分布が明らかとなった。
モデルに依存しない2段階緩和法であるDynamicCutを提案する。
論文 参考訳(メタデータ) (2025-05-28T13:06:00Z) - The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。
最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。
本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T15:56:44Z) - FairDropout: Using Example-Tied Dropout to Enhance Generalization of Minority Groups [10.274236106456758]
経験的リスク最小化で訓練されたモデルは、少数派からの事例を記憶しながら、多数派からの例をうまく一般化する傾向があることを示す。
本研究は、FairDropoutという手法として、この記憶を推論中に削除した特定のニューロンにリダイレクトすることを目的として、サンプルタイドドロップアウトを適用した。
視覚,言語,医療タスクを含むサブポピュレーション・ベンチマーク・スイートを用いて,FairDropoutを実証的に評価した。
論文 参考訳(メタデータ) (2025-02-10T17:18:54Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models [7.50189359952191]
本研究は,初対面後に記憶されないシーケンスをトレーニング中に「発見」できることを示す。
潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠される可能性があるため、データのプライバシの課題となる。
我々は,クロスエントロピー損失を利用した診断試験を開発し,高い精度で潜時記憶配列を明らかにする。
論文 参考訳(メタデータ) (2024-06-20T17:56:17Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - On Memorization in Diffusion Models [44.031805633114985]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。
分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。
本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文 参考訳(メタデータ) (2021-10-26T19:12:34Z) - On Memorization in Probabilistic Deep Generative Models [4.987581730476023]
深層生成モデルの最近の進歩は、様々なアプリケーション領域において印象的な結果をもたらしている。
深層学習モデルが入力データの一部を記憶する可能性に触発されたため、記憶の仕組みを理解するための努力が増加している。
論文 参考訳(メタデータ) (2021-06-06T19:33:04Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。