論文の概要: Linear Gradient Prediction with Control Variates
- arxiv url: http://arxiv.org/abs/2511.05187v1
- Date: Fri, 07 Nov 2025 12:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.756644
- Title: Linear Gradient Prediction with Control Variates
- Title(参考訳): 制御変数による線形勾配予測
- Authors: Kamil Ciosek, Nicolò Felicioni, Juan Elenter Litwin,
- Abstract要約: トレーニングコストの削減を目標として,ニューラルネットワークの新たなトレーニング方法を提案する。
提案手法は,高額な後方通過を必要とする全勾配ではなく,近似的な勾配を用いる。
視覚変換器の分類タスクにおいて,この手法の有効性を実証的に示す。
- 参考スコア(独自算出の注目度): 5.907996850796288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new way of training neural networks, with the goal of reducing training cost. Our method uses approximate predicted gradients instead of the full gradients that require an expensive backward pass. We derive a control-variate-based technique that ensures our updates are unbiased estimates of the true gradient. Moreover, we propose a novel way to derive a predictor for the gradient inspired by the theory of the Neural Tangent Kernel. We empirically show the efficacy of the technique on a vision transformer classification task.
- Abstract(参考訳): トレーニングコストの削減を目標として,ニューラルネットワークの新たなトレーニング方法を提案する。
提案手法は,高額な後方通過を必要とする全勾配ではなく,近似的な勾配を用いる。
我々は、真の勾配の偏りのない見積を確実にする制御変量に基づく手法を導出する。
さらに,ニューラル・タンジェント・カーネルの理論から着想を得た勾配の予測子を導出する新しい手法を提案する。
視覚変換器の分類タスクにおいて,この手法の有効性を実証的に示す。
関連論文リスト
- One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文 参考訳(メタデータ) (2024-01-30T05:42:54Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Can Forward Gradient Match Backpropagation? [2.875726839945885]
フォワードグラディエントはニューラルネットワークトレーニングに有効であることが示されている。
我々は、小さな局所的な補助ネットワークから得られるフィードバックなど、より有望な方向の勾配推定を強く偏り付けることを提案する。
局所損失から得られた勾配を候補方向として用いた場合,前方勾配法におけるランダムノイズを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2023-06-12T08:53:41Z) - Angle based dynamic learning rate for gradient descent [2.5077510176642805]
分類タスクにおける勾配に基づく降下法を適応的に学習する手法を提案する。
勾配に基づく項を期待することで適応学習率を選択する従来の手法の代わりに、現在の勾配と新しい勾配の間の角度を用いる。
提案手法は,ほとんどのデータセットにおいて,最も精度の高い手法であることがわかった。
論文 参考訳(メタデータ) (2023-04-20T16:55:56Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Gravilon: Applications of a New Gradient Descent Method to Machine
Learning [0.5352699766206809]
勾配方向のステップの長さを変更するために超曲面の幾何学を用いて,グラビロンと呼ばれる新しい勾配降下アルゴリズムを提案する。
ニューラルネットワークを用いて、MNIST桁分類において一般的に使用される勾配降下アルゴリズムと比較し、グラビロンの精度と効率を比較した有望な実験結果を提供する。
論文 参考訳(メタデータ) (2020-08-26T04:02:02Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Estimating Training Data Influence by Tracing Gradient Descent [21.94989239842377]
TracInは、モデルの予測に対するトレーニング例の影響を計算する。
TracInは実装が簡単で、必要なのは非依存の損失関数を動作させることだけだ。
論文 参考訳(メタデータ) (2020-02-19T22:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。