論文の概要: Grad Queue : A probabilistic framework to reinforce sparse gradients
- arxiv url: http://arxiv.org/abs/2404.16917v1
- Date: Thu, 25 Apr 2024 16:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:54:11.620916
- Title: Grad Queue : A probabilistic framework to reinforce sparse gradients
- Title(参考訳): Grad Queue : スパース勾配を補強する確率的枠組み
- Authors: Irfan Mohammad Al Hasib,
- Abstract要約: ランダムなデータポイントのバッチ内でスパースコンポーネントを補強するロバストなメカニズムを提案する。
各クラスタから冗長な情報を抽出する強力な直感的な基準は、システムのバックボーンである。
CIFAR10,MNIST,Reuters Newsのカテゴリデータセットでは,ミニバッチよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informative gradients are often lost in large batch updates. We propose a robust mechanism to reinforce the sparse components within a random batch of data points. A finite queue of online gradients is used to determine their expected instantaneous statistics. We propose a function to measure the scarcity of incoming gradients using these statistics and establish the theoretical ground of this mechanism. To minimize conflicting components within large mini-batches, samples are grouped with aligned objectives by clustering based on inherent feature space. Sparsity is measured for each centroid and weighted accordingly. A strong intuitive criterion to squeeze out redundant information from each cluster is the backbone of the system. It makes rare information indifferent to aggressive momentum also exhibits superior performance with larger mini-batch horizon. The effective length of the queue kept variable to follow the local loss pattern. The contribution of our method is to restore intra-mini-batch diversity at the same time widening the optimal batch boundary. Both of these collectively drive it deeper towards the minima. Our method has shown superior performance for CIFAR10, MNIST, and Reuters News category dataset compared to mini-batch gradient descent.
- Abstract(参考訳): インフォーマティブな勾配はしばしば大規模なバッチ更新で失われる。
ランダムなデータポイントのバッチ内でスパースコンポーネントを補強するロバストなメカニズムを提案する。
オンライン勾配の有限キューは、期待される瞬時統計を決定するために使用される。
本稿では,これらの統計値を用いて,入射勾配の不足を計測し,その理論的根拠を確立する機能を提案する。
大規模なミニバッチ内の競合するコンポーネントを最小限に抑えるため、サンプルは固有の特徴空間に基づいたクラスタリングによって、アライメントされた目的にグループ化される。
各セントロイドについて空間を計測し、それに応じて重み付けする。
各クラスタから冗長な情報を抽出する強力な直感的な基準は、システムのバックボーンである。
攻撃運動量に無関心な稀な情報は、より大きなミニバッチ水平線で優れた性能を示す。
キューの有効長は、ローカルロスパターンに従うように変数を保持した。
本手法の貢献は,バッチ境界を最適に拡張すると同時に,最小バッチ内多様性を回復することである。
これらはいずれも、ミニマに向かってさらに深く押し上げます。
CIFAR10,MNIST,Reuters Newsのカテゴリデータセットでは,ミニバッチ勾配よりも優れた性能を示した。
関連論文リスト
- Discrete error dynamics of mini-batch gradient descent for least squares regression [4.159762735751163]
置換のないサンプリングにおいて,少なくとも正方形に対するミニバッチ勾配勾配のダイナミクスについて検討した。
また、連続時間勾配流解析では検出できない離散化効果について検討し、最小バッチ勾配降下がステップサイズ依存解に収束することを示す。
論文 参考訳(メタデータ) (2024-06-06T02:26:14Z) - Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Disparity Between Batches as a Signal for Early Stopping [7.614628596146601]
ミニバッチ勾配勾配で学習したディープニューラルネットワークの一般化能力を評価するための指標を提案する。
我々の計量は勾配分散と呼ばれ、トレーニングセットから引き出された2つのミニバッチの勾配ベクトル間の$ell$ノルム距離である。
論文 参考訳(メタデータ) (2021-07-14T12:59:01Z) - DICE: Diversity in Deep Ensembles via Conditional Redundancy Adversarial
Estimation [109.11580756757611]
メンバー間の多様性のおかげで、ディープアンサンブルは単一のネットワークよりもパフォーマンスが良い。
最近のアプローチでは、多様性を高めるための予測を規則化していますが、個々のメンバーのパフォーマンスも大幅に減少します。
DICEと呼ばれる新しいトレーニング基準を導入し、特徴間の素早い相関を減らして多様性を高める。
論文 参考訳(メタデータ) (2021-01-14T10:53:26Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Log-Likelihood Ratio Minimizing Flows: Towards Robust and Quantifiable
Neural Distribution Alignment [52.02794488304448]
そこで本研究では,対数様比統計量と正規化フローに基づく新しい分布アライメント手法を提案する。
入力領域の局所構造を保存する領域アライメントにおいて,結果の最小化を実験的に検証する。
論文 参考訳(メタデータ) (2020-03-26T22:10:04Z) - Improve SGD Training via Aligning Mini-batches [22.58823484394866]
In-Training Distribution Matching (ITDM) は、ディープニューラルネットワーク(DNN)のトレーニングを改善し、オーバーフィッティングを減らすために提案されている。
具体的には、SGDの各イテレーションにおいて、異なるミニバッチの分布のモーメントを一致させて特徴抽出器を正規化する。
論文 参考訳(メタデータ) (2020-02-23T15:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。