論文の概要: When does mixup promote local linearity in learned representations?
- arxiv url: http://arxiv.org/abs/2210.16413v1
- Date: Fri, 28 Oct 2022 21:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-01 18:02:52.404511
- Title: When does mixup promote local linearity in learned representations?
- Title(参考訳): mixupは学習表現における局所線形性を促進するか?
- Authors: Arslan Chaudhry, Aditya Krishna Menon, Andreas Veit, Sadeep
Jayasumana, Srikumar Ramalingam, Sanjiv Kumar
- Abstract要約: 学習ネットワーク表現における線形性の促進におけるMixupの役割について検討する。
CIFAR-10, CIFAR-100, SVHNなどの視覚データセット上でのMixupの特性について検討する。
- 参考スコア(独自算出の注目度): 61.079020647847024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixup is a regularization technique that artificially produces new samples
using convex combinations of original training points. This simple technique
has shown strong empirical performance, and has been heavily used as part of
semi-supervised learning techniques such as
mixmatch~\citep{berthelot2019mixmatch} and interpolation consistent training
(ICT)~\citep{verma2019interpolation}. In this paper, we look at Mixup through a
\emph{representation learning} lens in a semi-supervised learning setup. In
particular, we study the role of Mixup in promoting linearity in the learned
network representations. Towards this, we study two questions: (1) how does the
Mixup loss that enforces linearity in the \emph{last} network layer propagate
the linearity to the \emph{earlier} layers?; and (2) how does the enforcement
of stronger Mixup loss on more than two data points affect the convergence of
training? We empirically investigate these properties of Mixup on vision
datasets such as CIFAR-10, CIFAR-100 and SVHN. Our results show that supervised
Mixup training does not make \emph{all} the network layers linear; in fact the
\emph{intermediate layers} become more non-linear during Mixup training
compared to a network that is trained \emph{without} Mixup. However, when Mixup
is used as an unsupervised loss, we observe that all the network layers become
more linear resulting in faster training convergence.
- Abstract(参考訳): Mixupは、元のトレーニングポイントの凸組み合わせを使って、新しいサンプルを人工的に生成する正規化技術である。
この単純な手法は、強い経験的性能を示しており、mixmatch~\citep{berthelot2019mixmatch} やinterpolation consistent training (ICT)~\citep{verma2019interpolation} といった半教師あり学習技術の一部として広く利用されている。
本稿では,半教師付き学習環境における「emph{representation learning}」レンズによるミックスアップについて検討する。
特に,学習ネットワーク表現における線形性の促進におけるMixupの役割について検討する。
そこで,(1)emph{last}ネットワーク層における線形性を強制するミックスアップ損失は,その線形性をemph{earlier}層に伝達するのだろうか?
; (2)2つ以上のデータポイントに対するより強い混合損失の実施は、トレーニングの収束にどのように影響しますか?
CIFAR-10, CIFAR-100, SVHNなどの視覚データセット上でのMixupの特性を実験的に検討した。
以上の結果から,教師付きミックスアップトレーニングはネットワーク層を線形にしないことが明らかとなった。
しかし、Mixupを教師なしの損失として使用すると、全てのネットワーク層がより線形になり、より高速なトレーニング収束をもたらすことが観察される。
関連論文リスト
- The Benefits of Mixup for Feature Learning [117.93273337740442]
最初に、機能やラベルに異なる線形パラメータを使用するMixupは、標準Mixupと同様のパフォーマンスが得られることを示す。
我々は、特徴雑音データモデルを検討し、Mixupトレーニングが共通の特徴と組み合わせることで、稀な特徴を効果的に学習できることを示します。
対照的に、標準的なトレーニングは共通の特徴しか学べないが、まれな特徴を学べないため、パフォーマンスが悪くなる。
論文 参考訳(メタデータ) (2023-03-15T08:11:47Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Boosting Discriminative Visual Representation Learning with
Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。
具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。
非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-30T14:49:59Z) - Towards Understanding the Data Dependency of Mixup-style Training [14.803285140800542]
Mixupトレーニングパラダイムでは、データポイントと関連するラベルの凸組み合わせを使用してモデルをトレーニングする。
トレーニング中に真のデータポイントはほとんどないが、Mixupを使ってトレーニングされたモデルは、元の経験的リスクを最小限に抑えているようだ。
線形モデルと線形分離可能なデータセットの大規模なクラスでは、Mixupトレーニングは標準トレーニングと同じ分類器を学習する。
論文 参考訳(メタデータ) (2021-10-14T18:13:57Z) - SMILE: Self-Distilled MIxup for Efficient Transfer LEarning [42.59451803498095]
本研究では, SMILE-Self-Distilled Mixup for EffIcient Transfer LEarningを提案する。
混合画像を入力として、SMILEはCNN特徴抽出器の出力を正規化し、入力の混合特徴ベクトルから学習する。
トリプルレギュラライザーは、特徴空間とラベル空間の両方で混合効果のバランスをとりながら、前訓練タスクのサンプル間の線形性をバインドします。
論文 参考訳(メタデータ) (2021-03-25T16:02:21Z) - AutoMix: Unveiling the Power of Mixup [34.623943038648164]
サンプル混合ポリシーを適応的に学習するために、識別機能を利用する柔軟性のある一般的な自動混合フレームワークを紹介します。
mixup をプリテキストタスクとして捉え,ミックスサンプル生成とミックスアップ分類という2つのサブプロブレムに分割した。
6つの人気のある分類ベンチマークの実験は、AutoMixが他の主要なミックスアップメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2021-03-24T07:21:53Z) - Mixup Without Hesitation [38.801366276601414]
我々は、簡潔で効果的で使いやすいトレーニングアルゴリズムであるMixup Without hesitation (mWh)を提案する。
mWhは、ミックスアップを基本データ拡張に徐々に置き換えることで、探索とエクスプロイトのバランスを良くする。
私たちのコードはオープンソースで、https://github.com/yuhao318318/mwhで利用可能です。
論文 参考訳(メタデータ) (2021-01-12T08:11:08Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z) - Patch-level Neighborhood Interpolation: A General and Effective
Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。
提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文 参考訳(メタデータ) (2019-11-21T06:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。