Fugu-MT 論文翻訳(概要): Attentional-Biased Stochastic Gradient Descent

論文の概要: Attentional-Biased Stochastic Gradient Descent

arxiv url: http://arxiv.org/abs/2012.06951v5
Date: Thu, 8 Jun 2023 05:58:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 22:47:44.247696
Title: Attentional-Biased Stochastic Gradient Descent
Title（参考訳）: 注意バイアス付き確率勾配降下
Authors: Qi Qi, Yi Xu, Rong Jin, Wotao Yin, Tianbao Yang
Abstract要約: 深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
参考スコア（独自算出の注目度）: 74.49926199036481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a simple yet effective provable method (named ABSGD) for addressing the data imbalance or label noise problem in deep learning. Our method is a simple modification to momentum SGD where we assign an individual importance weight to each sample in the mini-batch. The individual-level weight of sampled data is systematically proportional to the exponential of a scaled loss value of the data, where the scaling factor is interpreted as the regularization parameter in the framework of distributionally robust optimization (DRO). Depending on whether the scaling factor is positive or negative, ABSGD is guaranteed to converge to a stationary point of an information-regularized min-max or min-min DRO problem, respectively. Compared with existing class-level weighting schemes, our method can capture the diversity between individual examples within each class. Compared with existing individual-level weighting methods using meta-learning that require three backward propagations for computing mini-batch stochastic gradients, our method is more efficient with only one backward propagation at each iteration as in standard deep learning methods. ABSGD is flexible enough to combine with other robust losses without any additional cost. Our empirical studies on several benchmark datasets demonstrate the effectiveness of the proposed method.\footnote{Code is available at:\url{https://github.com/qiqi-helloworld/ABSGD/}}
Abstract（参考訳）: 本稿では、深層学習におけるデータ不均衡やラベルノイズ問題に対処するための、単純で効果的な証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。サンプルデータの個々のレベル重みは、データのスケールドロス値の指数に体系的に比例し、分散ロバスト最適化(DRO)の枠組みにおいて、スケーリング係数を正規化パラメータとして解釈する。スケーリング係数が正か負かによって、ABSGDは情報調整されたmin-maxまたはmin-min DRO問題の定常点に収束することが保証される。既存のクラスレベルの重み付けスキームと比較して,各クラス内の個々のサンプル間の多様性を捉えることができる。メタラーニングを用いた従来の個人レベルの重み付け手法と比較し,3つの後方伝播を必要とする最小バッチ確率勾配を計算し,各反復で1つの後方伝播しか行わず,より効率的である。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。ベンチマークデータセットを用いた実験により,提案手法の有効性を実証した。 footnote{codeは:\url{https://github.com/qiqi-helloworld/absgd/}}で利用可能である。

関連論文リスト

On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning [18.318758111829386]
非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
論文参考訳（メタデータ） (2024-04-30T06:39:04Z)
Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-01T03:27:08Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Training trajectories, mini-batch losses and the curious role of the learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文参考訳（メタデータ） (2023-01-05T21:58:46Z)
Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。本手法は,検索性能の最先端手法を3%～6%向上させる。
論文参考訳（メタデータ） (2022-11-29T14:52:38Z)
Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。実験結果から,これらの手法が直面する課題を分析した。本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文参考訳（メタデータ） (2022-03-23T07:33:37Z)
GOALS: Gradient-Only Approximations for Line Searches Towards Robust and Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文参考訳（メタデータ） (2021-05-23T11:21:01Z)
Least Squares Regression with Markovian Data: Fundamental Limits and Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-16T04:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。