論文の概要: Counterfactual Influence as a Distributional Quantity
- arxiv url: http://arxiv.org/abs/2506.20481v1
- Date: Wed, 25 Jun 2025 14:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.785527
- Title: Counterfactual Influence as a Distributional Quantity
- Title(参考訳): 分布量としての反実的影響
- Authors: Matthieu Meeus, Igor Shilov, Georgios Kaissis, Yves-Alexandre de Montjoye,
- Abstract要約: 機械学習モデルは、トレーニングデータからサンプルを記憶し、プライバシと一般化に関する懸念を提起することが知られている。
反事実的自己影響は、サンプルがトレーニングデータセットに含めることに応じて、サンプルに対するモデルの予測がどのように変化するかを定量化して、暗記を研究するための一般的な指標である。
本稿では,全てのトレーニングサンプルがサンプルの記憶方法にどのように影響するかを考慮し,反実的影響を分布量として扱う記憶化について検討する。
- 参考スコア(独自算出の注目度): 10.543161602692361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are known to memorize samples from their training data, raising concerns around privacy and generalization. Counterfactual self-influence is a popular metric to study memorization, quantifying how the model's prediction for a sample changes depending on the sample's inclusion in the training dataset. However, recent work has shown memorization to be affected by factors beyond self-influence, with other training samples, in particular (near-)duplicates, having a large impact. We here study memorization treating counterfactual influence as a distributional quantity, taking into account how all training samples influence how a sample is memorized. For a small language model, we compute the full influence distribution of training samples on each other and analyze its properties. We find that solely looking at self-influence can severely underestimate tangible risks associated with memorization: the presence of (near-)duplicates seriously reduces self-influence, while we find these samples to be (near-)extractable. We observe similar patterns for image classification, where simply looking at the influence distributions reveals the presence of near-duplicates in CIFAR-10. Our findings highlight that memorization stems from complex interactions across training data and is better captured by the full influence distribution than by self-influence alone.
- Abstract(参考訳): 機械学習モデルは、トレーニングデータからサンプルを記憶し、プライバシと一般化に関する懸念を提起することが知られている。
反事実的自己影響は、サンプルがトレーニングデータセットに含めることに応じて、サンプルに対するモデルの予測がどのように変化するかを定量化して、暗記を研究するための一般的な指標である。
しかし、最近の研究で、記憶は自己影響以外の要因の影響を受けており、他のトレーニングサンプル、特に(近距離)重複体は大きな影響を与える。
本稿では,全てのトレーニングサンプルがサンプルの記憶方法にどのように影響するかを考慮し,反実的影響を分布量として扱う記憶化について検討する。
小さな言語モデルでは、トレーニングサンプルの完全な影響分布を互いに計算し、その特性を解析する。
自己影響のみを調べることは、暗記に伴う有形のリスクを著しく過小評価し、(近傍)duplicateの存在は、自己影響を著しく減少させ、一方、これらのサンプルは(近く)抽出可能であることを発見した。
画像分類では,CIFAR-10にほぼ重複する物質の存在が示される。
この結果から,記憶は学習データ間の複雑な相互作用によるもので,自己影響のみによるよりも,完全な影響分布に捕えられることが示唆された。
関連論文リスト
- A Closer Look on Memorization in Tabular Diffusion Model: A Data-Centric Perspective [15.33961902853653]
生成したサンプルがレプリカとしてフラグ付けされている回数に基づいて,実サンプル毎のメモリ化を定量化する。
経験的分析により,暗記回数の重み付き分布が明らかとなった。
モデルに依存しない2段階緩和法であるDynamicCutを提案する。
論文 参考訳(メタデータ) (2025-05-28T13:06:00Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - On the Cause of Unfairness: A Training Sample Perspective [13.258569961897907]
私たちは、トレーニングデータのレンズを通して問題を調べます。
本研究では、事前定義された概念に基づいて、サンプルを非現実的に変更することで、トレーニングサンプルが不公平性に与える影響を定量化する。
我々のフレームワークは、観察された不公平さを理解し、トレーニングデータを修復することで軽減するだけでなく、他の多くの応用にもつながります。
論文 参考訳(メタデータ) (2023-06-30T17:48:19Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - InfoNCE Loss Provably Learns Cluster-Preserving Representations [54.28112623495274]
InfoNCEが有限個の負のサンプルで学習した表現は、データのクラスタに対して一致していることを示す。
我々の主な成果は、InfoNCEが有限個の負のサンプルで学んだ表現もまた、データのクラスタと一致していることを示すことである。
論文 参考訳(メタデータ) (2023-02-15T19:45:35Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Quantifying and Mitigating Privacy Risks of Contrastive Learning [4.909548818641602]
我々は、会員推定と属性推論のレンズを通して、コントラスト学習の最初のプライバシ分析を行う。
その結果,コントラストモデルではメンバシップ推論攻撃に弱いが,教師付きモデルに比べて属性推論攻撃に弱いことが示唆された。
この状況を改善するため,プライバシ保護型コントラスト学習機構であるTalosを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:38:11Z) - Efficient Estimation of Influence of a Training Instance [56.29080605123304]
本稿では,ニューラルネットワークモデルに対するトレーニングインスタンスの影響を効率的に推定する手法を提案する。
このメソッドは、サブネットワークをゼロマスクし、サブネットワークが各トレーニングインスタンスを学習するのを防ぎます。
提案手法は, 学習の影響を捉え, 誤り予測の解釈性を高め, 一般化改善のための訓練データセットをクリーン化できることを実証する。
論文 参考訳(メタデータ) (2020-12-08T04:31:38Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。