論文の概要: On the Accuracy of Newton Step and Influence Function Data Attributions
- arxiv url: http://arxiv.org/abs/2512.12572v1
- Date: Sun, 14 Dec 2025 06:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.319735
- Title: On the Accuracy of Newton Step and Influence Function Data Attributions
- Title(参考訳): ニュートンステップの精度と影響関数データ属性について
- Authors: Ittai Rubinstein, Samuel B. Hopkins,
- Abstract要約: 本稿では,凸学習問題に対するNSおよびIFデータ属性法の新しい解析法を提案する。
十分に良好なロジスティック回帰に対して、我々の境界はスケール的に多対数因子に密着していることを証明している。
- 参考スコア(独自算出の注目度): 8.392894051706055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data attribution aims to explain model predictions by estimating how they would change if certain training points were removed, and is used in a wide range of applications, from interpretability and credit assignment to unlearning and privacy. Even in the relatively simple case of linear regressions, existing mathematical analyses of leading data attribution methods such as Influence Functions (IF) and single Newton Step (NS) remain limited in two key ways. First, they rely on global strong convexity assumptions which are often not satisfied in practice. Second, the resulting bounds scale very poorly with the number of parameters ($d$) and the number of samples removed ($k$). As a result, these analyses are not tight enough to answer fundamental questions such as "what is the asymptotic scaling of the errors of each method?" or "which of these methods is more accurate for a given dataset?" In this paper, we introduce a new analysis of the NS and IF data attribution methods for convex learning problems. To the best of our knowledge, this is the first analysis of these questions that does not assume global strong convexity and also the first explanation of [KATL19] and [RH25a]'s observation that NS data attribution is often more accurate than IF. We prove that for sufficiently well-behaved logistic regression, our bounds are asymptotically tight up to poly-logarithmic factors, yielding scaling laws for the errors in the average-case sample removals. \[ \mathbb{E}_{T \subseteq [n],\, |T| = k} \bigl[ \|\hatθ_T - \hatθ_T^{\mathrm{NS}}\|_2 \bigr] = \widetildeΘ\!\left(\frac{k d}{n^2}\right), \qquad \mathbb{E}_{T \subseteq [n],\, |T| = k} \bigl[ \|\hatθ_T^{\mathrm{NS}} - \hatθ_T^{\mathrm{IF}}\|_2 \bigr] = \widetildeΘ\!\left( \frac{(k + d)\sqrt{k d}}{n^2} \right). \]
- Abstract(参考訳): データ属性は、特定のトレーニングポイントが削除された場合、どのように変更されるのかを推定することでモデル予測を説明することを目的としており、解釈可能性やクレジットの割り当てから未学習やプライバシに至るまで、幅広いアプリケーションで使用されている。
線形回帰の比較的単純な場合においても、影響関数 (IF) やシングルニュートンステップ (NS) のような先行データ帰属法の数学的解析は2つの重要な方法で制限されている。
第一に、それらは実際には満たされない大域的な強い凸性仮定に依存している。
第二に、結果のバウンダリはパラメータの数($d$)と削除されたサンプルの数($k$)で非常に低いスケールである。
その結果、これらの分析は「各手法の誤りの漸近的スケーリングとは何か?」「どの手法が与えられたデータセットに対してより正確か?」といった根本的な疑問に答えるには十分ではない。この記事では、凸学習問題に対するNSおよびIFデータ属性手法の新たな分析を紹介する。
我々の知る限りでは、この質問は地球規模の強い凸性を前提としない最初の分析であり、また[KATL19] と [RH25a] の観測から、NSデータ帰属は IF よりも精度が高いことが分かる。
十分に良好なロジスティック回帰について、我々の境界は漸近的に多対数的要因に密着しており、平均的なサンプル除去における誤差のスケーリング法則が導かれることを証明している。
\[ \mathbb{E}_{T \subseteq [n],\, |T| = k} \bigl[ \|\hatθ_T - \hatθ_T^{\mathrm{NS}}\|_2 \bigr] = \widetilde\!
\left(\frac {k d}{n^2}\right), \qquad \mathbb{E}_{T \subseteq [n],\, |T| = k} \bigl[ \|\hatθ_T^{\mathrm{NS}} - \hatθ_T^{\mathrm{IF}}\|_2 \bigr] = \widetilde\!
\left( \frac{(k + d)\sqrt{k d}}{n^2} \right)。
\]
関連論文リスト
- Federated Learning Resilient to Byzantine Attacks and Data Heterogeneity [59.17297282373628]
本稿では、データに対する悪意ある攻撃の文脈におけるグラディエント学習(FL)について述べる。
本稿では,収束解析と損失関数の中央値を用いた新しい平均ロバストアルゴリズム(RAGA)を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:15:08Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Near Optimal Heteroscedastic Regression with Symbiotic Learning [29.16456701187538]
我々は不連続線形回帰の問題を考察する。
正則ノルムにおいて$mathbfw*$を$tildeOleft(|mathbff*|2cdot left(frac1n + left(dnright)2right)$の誤差まで推定し、一致する下界を証明できる。
論文 参考訳(メタデータ) (2023-06-25T16:32:00Z) - Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.63469275932989]
制約付き非線形最適化問題のオンライン統計的推測を考察する。
これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文 参考訳(メタデータ) (2022-05-27T00:34:03Z) - AI without networks [0.0]
我々は、生成モデリングを取り入れたAIのためのネットワークフリーフレームワークを開発する。
我々は、この枠組みを、民族学、制御理論、数学の3つの異なる分野の例で示す。
また、生成AIによる倫理的法的課題に対処するために、この枠組みに基づいて容易に計算された信用割当手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T05:50:02Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - A finite sample analysis of the benign overfitting phenomenon for ridge
function estimation [0.0]
テキストリッジ型非線形モデルの有限サンプル解析を提案する。
本研究は,2重降下現象のテクスタイト推定問題とテクスタイト予測問題の両方について,テクスタイトオーバーパラメトリクス状態について検討する。
論文 参考訳(メタデータ) (2020-07-25T08:40:29Z) - Piecewise Linear Regression via a Difference of Convex Functions [50.89452535187813]
本稿では,データに対する凸関数(DC関数)の差を利用した線形回帰手法を提案する。
実際に実装可能であることを示すとともに,実世界のデータセット上で既存の回帰/分類手法に匹敵する性能を有することを実証的に検証した。
論文 参考訳(メタデータ) (2020-07-05T18:58:47Z) - A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian
Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。
この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文 参考訳(メタデータ) (2020-06-09T02:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。