論文の概要: Learning Compact Features via In-Training Representation Alignment
- arxiv url: http://arxiv.org/abs/2211.13332v1
- Date: Wed, 23 Nov 2022 22:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:29:20.354678
- Title: Learning Compact Features via In-Training Representation Alignment
- Title(参考訳): イントレーニング表現アライメントによるコンパクトな特徴の学習
- Authors: Xin Li, Xiangrui Li, Deng Pan, Yao Qiang, and Dongxiao Zhu
- Abstract要約: 各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
- 参考スコア(独自算出の注目度): 19.273120635948363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) for supervised learning can be viewed as a
pipeline of the feature extractor (i.e., last hidden layer) and a linear
classifier (i.e., output layer) that are trained jointly with stochastic
gradient descent (SGD) on the loss function (e.g., cross-entropy). In each
epoch, the true gradient of the loss function is estimated using a mini-batch
sampled from the training set and model parameters are then updated with the
mini-batch gradients. Although the latter provides an unbiased estimation of
the former, they are subject to substantial variances derived from the size and
number of sampled mini-batches, leading to noisy and jumpy updates. To
stabilize such undesirable variance in estimating the true gradients, we
propose In-Training Representation Alignment (ITRA) that explicitly aligns
feature distributions of two different mini-batches with a matching loss in the
SGD training process. We also provide a rigorous analysis of the desirable
effects of the matching loss on feature representation learning: (1) extracting
compact feature representation; (2) reducing over-adaption on mini-batches via
an adaptive weighting mechanism; and (3) accommodating to multi-modalities.
Finally, we conduct large-scale experiments on both image and text
classifications to demonstrate its superior performance to the strong
baselines.
- Abstract(参考訳): 教師付き学習のためのディープニューラルネットワーク(DNN)は、特徴抽出器(すなわち最後の隠蔽層)と、損失関数(例えばクロスエントロピー)上の確率勾配降下(SGD)と共同で訓練される線形分類器(すなわち出力層)のパイプラインと見なすことができる。
各時代において、トレーニングセットからサンプリングされたミニバッチを用いて損失関数の真の勾配を推定し、モデルパラメータをミニバッチ勾配で更新する。
後者は、前者の偏りのない推定を提供するが、サンプルされたミニバッチのサイズと数から派生した実質的なばらつきがあり、騒がしい更新に繋がる。
真の勾配推定におけるこのような望ましくない分散を安定化するために,2つの異なるミニバッチの特徴分布をsgd訓練過程における損失と明確に一致させるイントレーニング表現アライメント(itra)を提案する。
また,(1)コンパクトな特徴表現の抽出,(2)適応的な重み付け機構によるミニバッチの過剰適応の低減、(3)マルチモダリティへの適応、といった特徴表現学習におけるマッチング損失の望ましい効果の厳密な分析を提供する。
最後に,画像とテキストの分類について大規模な実験を行い,その性能を強いベースラインに示す。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。
それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文 参考訳(メタデータ) (2022-08-08T11:51:01Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z) - Improve SGD Training via Aligning Mini-batches [22.58823484394866]
In-Training Distribution Matching (ITDM) は、ディープニューラルネットワーク(DNN)のトレーニングを改善し、オーバーフィッティングを減らすために提案されている。
具体的には、SGDの各イテレーションにおいて、異なるミニバッチの分布のモーメントを一致させて特徴抽出器を正規化する。
論文 参考訳(メタデータ) (2020-02-23T15:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。