論文の概要: Explaining Neural Matrix Factorization with Gradient Rollback
- arxiv url: http://arxiv.org/abs/2010.05516v4
- Date: Tue, 15 Dec 2020 07:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:21:10.778023
- Title: Explaining Neural Matrix Factorization with Gradient Rollback
- Title(参考訳): 勾配ロールバックによる神経マトリックス因子分解の解明
- Authors: Carolin Lawrence, Timo Sztyler, Mathias Niepert
- Abstract要約: グラデーション・ロールバックは インフルエンス・アセスメントの一般的なアプローチです
トレーニング時間とテスト時間の両方において,勾配ロールバックが非常に効率的であることを示す。
グラデーションロールバックは、知識ベース補完と推奨データセットの忠実な説明を提供する。
- 参考スコア(独自算出の注目度): 22.33402175974514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explaining the predictions of neural black-box models is an important
problem, especially when such models are used in applications where user trust
is crucial. Estimating the influence of training examples on a learned neural
model's behavior allows us to identify training examples most responsible for a
given prediction and, therefore, to faithfully explain the output of a
black-box model. The most generally applicable existing method is based on
influence functions, which scale poorly for larger sample sizes and models.
We propose gradient rollback, a general approach for influence estimation,
applicable to neural models where each parameter update step during gradient
descent touches a smaller number of parameters, even if the overall number of
parameters is large. Neural matrix factorization models trained with gradient
descent are part of this model class. These models are popular and have found a
wide range of applications in industry. Especially knowledge graph embedding
methods, which belong to this class, are used extensively. We show that
gradient rollback is highly efficient at both training and test time. Moreover,
we show theoretically that the difference between gradient rollback's influence
approximation and the true influence on a model's behavior is smaller than
known bounds on the stability of stochastic gradient descent. This establishes
that gradient rollback is robustly estimating example influence. We also
conduct experiments which show that gradient rollback provides faithful
explanations for knowledge base completion and recommender datasets.
- Abstract(参考訳): ニューラルブラックボックスモデルの予測を説明することは、特にユーザ信頼が不可欠であるアプリケーションでそのようなモデルが使用される場合、重要な問題である。
学習したニューラルネットワークの振る舞いに対するトレーニングサンプルの影響を推定することで、与えられた予測に最も責任を持つトレーニングサンプルを識別できるため、ブラックボックスモデルのアウトプットを忠実に説明できる。
最も一般的な既存手法は、より大きなサンプルサイズやモデルに対して低スケールの影響関数に基づいている。
勾配降下中の各パラメータ更新ステップが、パラメータ全体の数が大きい場合でもより少ないパラメータに接するニューラルモデルに適用可能な、影響推定のための一般的なアプローチである勾配ロールバックを提案する。
勾配降下で訓練された神経マトリックス因子化モデルは、このモデルクラスの一部である。
これらのモデルは人気があり、業界に広く応用されている。
特にこのクラスに属する知識グラフ埋め込みメソッドは広く使われている。
グラデーションロールバックは,トレーニング時間とテスト時間の両方において非常に効率的であることを示す。
さらに, 勾配ロールバックの影響近似とモデル行動に対する真の影響との差が, 確率的勾配降下の安定性に対する既知の境界よりも小さいことを理論的に示す。
これにより、勾配ロールバックは、サンプルの影響をロバストに推定できる。
また,グラデーションロールバックが知識ベース補完とレコメンダデータセットに対して忠実な説明を提供することを示す実験を行った。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - First is Better Than Last for Language Data Influence [44.907420330002815]
我々は、TracIn-WEが、最終層に適用される他のデータ影響手法を著しく上回っていることを示す。
また、TracIn-WEは、トレーニング入力全体のレベルだけでなく、トレーニング入力内の単語のレベルでもスコアを生成できることを示す。
論文 参考訳(メタデータ) (2022-02-24T00:48:29Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。