Fugu-MT 論文翻訳(概要): Gradient Sketches for Training Data Attribution and Studying the Loss Landscape

論文の概要: Gradient Sketches for Training Data Attribution and Studying the Loss Landscape

arxiv url: http://arxiv.org/abs/2402.03994v1
Date: Tue, 6 Feb 2024 13:47:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 14:41:51.479047
Title: Gradient Sketches for Training Data Attribution and Studying the Loss Landscape
Title（参考訳）: データの帰属訓練のための勾配スケッチとロスランドスケープの研究
Authors: Andrea Schioppa
Abstract要約: 勾配とヘッセンベクトル積のスケッチは、そのようなベクトルを多く保存する必要があるアプリケーションにおいて重要な役割を果たす。ニューラルネットワークの本質的な次元の研究により、スケーラブルなスケッチアルゴリズムの設計空間を提案し、研究する。
参考スコア（独自算出の注目度）: 1.3325600043256554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Random projections or sketches of gradients and Hessian vector products play an essential role in applications where one needs to store many such vectors while retaining accurate information about their relative geometry. Two important scenarios are training data attribution (tracing a model's behavior to the training data), where one needs to store a gradient for each training example, and the study of the spectrum of the Hessian (to analyze the training dynamics), where one needs to store multiple Hessian vector products. While sketches that use dense matrices are easy to implement, they are memory bound and cannot be scaled to modern neural networks. Motivated by work on the intrinsic dimension of neural networks, we propose and study a design space for scalable sketching algorithms. We demonstrate the efficacy of our approach in three applications: training data attribution, the analysis of the Hessian spectrum and the computation of the intrinsic dimension when fine-tuning pre-trained language models.
Abstract（参考訳）: 勾配やヘッセンベクトル積のランダム射影やスケッチは、相対幾何学に関する正確な情報を保持しながら多くのベクトルを保存する必要があるアプリケーションにおいて重要な役割を果たす。 2つの重要なシナリオは、トレーニングデータアトリビューション(モデルの振る舞いをトレーニングデータにトラクシングする)、各トレーニング例の勾配を格納する必要があること、複数のヘッシアンベクトル積を格納する必要があるヘッシアンスペクトルの研究(トレーニングダイナミクスを分析するため)である。密度の高い行列を使用するスケッチは実装が容易だが、メモリバウンドであり、現代のニューラルネットワークにはスケールできない。ニューラルネットワークの固有次元の研究に動機づけられ,スケーラブルなスケッチアルゴリズムの設計空間を提案・検討した。提案手法の有効性を3つの応用として, 学習データ属性, ヘッセンスペクトルの解析, 学習前言語モデルにおける固有次元の計算に適用した。

関連論文リスト

Training Spatial-Frequency Visual Prompts and Probabilistic Clusters for Accurate Black-Box Transfer Learning [35.72926400167876]
そこで本研究では,ブラックボックス環境における視覚認識モデルのためのパラメータ効率変換学習フレームワークを提案する。実験では,広範囲な視覚認識データセットにまたがる数ショットの移動学習環境において,優れた性能を示す。
論文参考訳（メタデータ） (2024-08-15T05:35:52Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
SCorP: Statistics-Informed Dense Correspondence Prediction Directly from Unsegmented Medical Images [5.507868474642766]
SCorPは,非分割画像から直接表面上の対応を予測できる新しいフレームワークである。提案モデルでは,対応予測タスクの監督を取り除き,トレーニングフェーズと推論フェーズを合理化する。
論文参考訳（メタデータ） (2024-04-27T17:56:58Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
Gradients as Features for Deep Representation Learning [26.996104074384263]
本稿では,事前学習したディープ・ネットワークを様々なタスクに適応させることによって,ディープ・表現学習の課題に対処する。我々の重要な革新は、事前訓練されたネットワークの勾配と活性化の両方を組み込んだ線形モデルの設計である。我々は,実際の勾配を計算せずに,モデルのトレーニングと推論を効率的に行うアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-04-12T02:57:28Z)
Gradient-Based Training and Pruning of Radial Basis Function Networks with an Application in Materials Physics [0.24792948967354234]
本稿では,高速かつスケーラブルなオープンソース実装による放射状基底関数ネットワークのトレーニング手法を提案する。連立データと連立データのモデル解析のための新しいクローズドフォーム最適化基準を導出する。
論文参考訳（メタデータ） (2020-04-06T11:32:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。