論文の概要: LoRIF: Low-Rank Influence Functions for Scalable Training Data Attribution
- arxiv url: http://arxiv.org/abs/2601.21929v1
- Date: Thu, 29 Jan 2026 16:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.982903
- Title: LoRIF: Low-Rank Influence Functions for Scalable Training Data Attribution
- Title(参考訳): LoRIF: スケーラブルなトレーニングデータ属性のための低レベル影響関数
- Authors: Shuangqi Li, Hieu Le, Jingyi Xu, Mathieu Salzmann,
- Abstract要約: トレーニングデータ属性は、モデルの予測に最も影響したトレーニング例を特定する。
LoRIFは、両方のボトルネックに対処するために、勾配の低ランク構造を利用する。
数百万のサンプルでデータセットでトレーニングされた0.1Bから70Bパラメータのモデルで、LoRIFは最大20$timesのストレージ削減とクエリ時の高速化を実現している。
- 参考スコア(独自算出の注目度): 62.830878652285406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data attribution (TDA) identifies which training examples most influenced a model's prediction. The best-performing TDA methods exploits gradients to define an influence function. To overcome the scalability challenge arising from gradient computation, the most popular strategy is random projection (e.g., TRAK, LoGRA). However, this still faces two bottlenecks when scaling to large training sets and high-quality attribution: \emph{(i)} storing and loading projected per-example gradients for all $N$ training examples, where query latency is dominated by I/O; and \emph{(ii)} forming the $D \times D$ inverse Hessian approximation, which costs $O(D^2)$ memory. Both bottlenecks scale with the projection dimension $D$, yet increasing $D$ is necessary for attribution quality -- creating a quality--scalability tradeoff. We introduce \textbf{LoRIF (Low-Rank Influence Functions)}, which exploits low-rank structures of gradient to address both bottlenecks. First, we store rank-$c$ factors of the projected per-example gradients rather than full matrices, reducing storage and query-time I/O from $O(D)$ to $O(c\sqrt{D})$ per layer per sample. Second, we use truncated SVD with the Woodbury identity to approximate the Hessian term in an $r$-dimensional subspace, reducing memory from $O(D^2)$ to $O(Dr)$. On models from 0.1B to 70B parameters trained on datasets with millions of examples, LoRIF achieves up to 20$\times$ storage reduction and query-time speedup compared to LoGRA, while matching or exceeding its attribution quality. LoRIF makes gradient-based TDA practical at frontier scale.
- Abstract(参考訳): トレーニングデータ属性(TDA)は、モデルの予測に最も影響したトレーニング例を特定する。
最も優れたTDA法は、影響関数を定義するために勾配を利用する。
勾配計算によるスケーラビリティの課題を克服するために、最も一般的な戦略はランダムプロジェクション(例えば、TRAK、LoGRA)である。
しかし、これは大きなトレーニングセットへのスケーリングと高品質な属性の2つのボトルネックに直面している。
i) クエリレイテンシがI/Oで支配されるすべての$N$トレーニング例に対する、サンプル単位の予測勾配の保存とロード。
(ii)} $D \times D$ inverse Hessian approximation, which cost $O(D^2)$ memory。
両方のボトルネックは、プロジェクションディメンションの$D$でスケールするが、属性品質にはD$が必須である。
本稿では,2つのボトルネックに対処するために,勾配の低ランク構造を利用する「textbf{LoRIF (Low-Rank Influence Function)} を導入する。
まず、全行列ではなく出力単位の勾配の階数-$c$を格納し、ストレージとクエリ時間I/Oをサンプル毎に$O(D)$から$O(c\sqrt{D})$に削減する。
第二に、truncated SVD with the Woodbury identity to almost the Hessian term in a $r$-dimensional subspace, reduce memory from $O(D^2)$ to $O(Dr)$。
数百万のサンプルでデータセットでトレーニングされた0.1Bから70Bのモデルで、LoRIFは最大20$\timesのストレージ削減と、LoGRAと比較してクエリタイムのスピードアップを実現し、その属性品質を一致または超える。
LoRIFは勾配に基づくTDAをフロンティアスケールで実用化する。
関連論文リスト
- Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。
大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。
低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文 参考訳(メタデータ) (2024-06-04T09:44:49Z) - Second-order Information Promotes Mini-Batch Robustness in Variance-Reduced Gradients [0.196629787330046]
目的関数の部分的な2次情報を組み込むことで、分散還元勾配法のミニバッチサイズに対するロバスト性を劇的に向上させることができることを示す。
本稿では,この現象をプロトタイプNewton(textttMb-SVRN$)アルゴリズムで示す。
論文 参考訳(メタデータ) (2024-04-23T05:45:52Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Coordinating Distributed Example Orders for Provably Accelerated
Training [39.05759866984658]
本稿では,分散環境に順応する置換型例の利点を変換するために,CD-GraB(Coordinated Distributed GraB)を提案する。
無視可能なオーバーヘッドでは、CD-GraBは集中型GraBよりも収束速度が線形に向上し、様々なベンチマークタスクにおいて分散RRより優れる。
論文 参考訳(メタデータ) (2023-02-02T03:15:29Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。