論文の概要: Rethinking Soft Label in Label Distribution Learning Perspective
- arxiv url: http://arxiv.org/abs/2301.13444v1
- Date: Tue, 31 Jan 2023 06:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:24:49.400645
- Title: Rethinking Soft Label in Label Distribution Learning Perspective
- Title(参考訳): ラベル分布学習におけるソフトラベルの再考
- Authors: Seungbum Hong, Jihun Yoon, Bogyu Park, Min-Kook Choi
- Abstract要約: 初期の畳み込みニューラルネットワーク(CNN)におけるトレーニングの第一の目的は、モデルのより高度な一般化性能である。
CNNトレーニングにおいてラベル分布学習(LDL)を行うことで,モデルの校正が促進されることを示した。
我々はいくつかの可視化と分析を行い、LCLを用いたCNNトレーニングでいくつかの興味深い振る舞いを目撃した。
- 参考スコア(独自算出の注目度): 0.27719338074999533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary goal of training in early convolutional neural networks (CNN) is
the higher generalization performance of the model. However, as the expected
calibration error (ECE), which quantifies the explanatory power of model
inference, was recently introduced, research on training models that can be
explained is in progress. We hypothesized that a gap in supervision criteria
during training and inference leads to overconfidence, and investigated that
performing label distribution learning (LDL) would enhance the model
calibration in CNN training. To verify this assumption, we used a simple LDL
setting with recent data augmentation techniques. Based on a series of
experiments, the following results are obtained: 1) State-of-the-art KD methods
significantly impede model calibration. 2) Training using LDL with recent data
augmentation can have excellent effects on model calibration and even in
generalization performance. 3) Online LDL brings additional improvements in
model calibration and accuracy with long training, especially in large-size
models. Using the proposed approach, we simultaneously achieved a lower ECE and
higher generalization performance for the image classification datasets
CIFAR10, 100, STL10, and ImageNet. We performed several visualizations and
analyses and witnessed several interesting behaviors in CNN training with the
LDL.
- Abstract(参考訳): 初期の畳み込みニューラルネットワーク(cnn)におけるトレーニングの主な目標は、モデルの一般化性能の向上である。
しかし、モデル推論の説明力を定量化する期待校正誤差(ECE)が最近導入され、説明可能なトレーニングモデルの研究が進行中である。
トレーニングと推論における監督基準のギャップが過信を招き,ラベル分布学習(LDL)がCNNトレーニングにおけるモデル校正を促進させると仮定した。
この仮定を検証するために,最近のデータ拡張技術を用いたシンプルなLCL設定を用いた。
一連の実験に基づいて、以下の結果が得られる。
1) 最先端KD法はモデル校正を著しく阻害する。
2)最近のデータ拡張を伴うldlを用いたトレーニングは,モデルキャリブレーションや一般化性能に優れた影響を与える可能性がある。
3) オンラインldlは,特に大規模モデルにおいて,長期トレーニングによるモデルキャリブレーションと精度がさらに向上する。
提案手法を用いて,画像分類データセットCIFAR10,100,STL10,ImageNetに対して,低ECEと高一般化性能を同時に達成した。
我々はいくつかの可視化と分析を行い、LCLを用いたCNNトレーニングでいくつかの興味深い行動を示した。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Model Balancing Helps Low-data Training and Fine-tuning [19.63134953504884]
基礎モデルの最近の進歩は、事前訓練されたモデルを専門分野と整合させる必要性を強調している。
これらのトピックは、科学機械学習(SciML)の新興分野においても注目を集めている。
低データトレーニングと微調整の限界に対処するため、重機自己正規化(HT-SR)理論からインスピレーションを得た。
我々は最近提案されたレイヤーワイド学習率スケジューラであるTempBalanceに適応し、レイヤー間のトレーニング品質を効果的にバランスさせる。
論文 参考訳(メタデータ) (2024-10-16T02:48:39Z) - Decoupling Feature Extraction and Classification Layers for Calibrated Neural Networks [3.5284544394841117]
過度にパラメータ化されたDNNアーキテクチャにおける特徴抽出層と分類層の訓練を分離することで、モデルの校正が大幅に向上することを示す。
本稿では,複数の画像分類ベンチマークデータセットに対して,VTおよびWRNアーキテクチャ間のキャリブレーションを改善する手法を提案する。
論文 参考訳(メタデータ) (2024-05-02T11:36:17Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - On the Importance of Calibration in Semi-supervised Learning [13.859032326378188]
State-of-the-art (SOTA) の半教師付き学習(SSL)手法はラベル付きデータとラベルなしデータの混在を活用することに成功している。
我々は、キャリブレーションを最適化し、標準ビジョンベンチマークでその有効性を実証する新しいSSLモデル群を紹介します。
論文 参考訳(メタデータ) (2022-10-10T15:41:44Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。