論文の概要: Rethinking Soft Label in Label Distribution Learning Perspective
- arxiv url: http://arxiv.org/abs/2301.13444v1
- Date: Tue, 31 Jan 2023 06:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:24:49.400645
- Title: Rethinking Soft Label in Label Distribution Learning Perspective
- Title(参考訳): ラベル分布学習におけるソフトラベルの再考
- Authors: Seungbum Hong, Jihun Yoon, Bogyu Park, Min-Kook Choi
- Abstract要約: 初期の畳み込みニューラルネットワーク(CNN)におけるトレーニングの第一の目的は、モデルのより高度な一般化性能である。
CNNトレーニングにおいてラベル分布学習(LDL)を行うことで,モデルの校正が促進されることを示した。
我々はいくつかの可視化と分析を行い、LCLを用いたCNNトレーニングでいくつかの興味深い振る舞いを目撃した。
- 参考スコア(独自算出の注目度): 0.27719338074999533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary goal of training in early convolutional neural networks (CNN) is
the higher generalization performance of the model. However, as the expected
calibration error (ECE), which quantifies the explanatory power of model
inference, was recently introduced, research on training models that can be
explained is in progress. We hypothesized that a gap in supervision criteria
during training and inference leads to overconfidence, and investigated that
performing label distribution learning (LDL) would enhance the model
calibration in CNN training. To verify this assumption, we used a simple LDL
setting with recent data augmentation techniques. Based on a series of
experiments, the following results are obtained: 1) State-of-the-art KD methods
significantly impede model calibration. 2) Training using LDL with recent data
augmentation can have excellent effects on model calibration and even in
generalization performance. 3) Online LDL brings additional improvements in
model calibration and accuracy with long training, especially in large-size
models. Using the proposed approach, we simultaneously achieved a lower ECE and
higher generalization performance for the image classification datasets
CIFAR10, 100, STL10, and ImageNet. We performed several visualizations and
analyses and witnessed several interesting behaviors in CNN training with the
LDL.
- Abstract(参考訳): 初期の畳み込みニューラルネットワーク(cnn)におけるトレーニングの主な目標は、モデルの一般化性能の向上である。
しかし、モデル推論の説明力を定量化する期待校正誤差(ECE)が最近導入され、説明可能なトレーニングモデルの研究が進行中である。
トレーニングと推論における監督基準のギャップが過信を招き,ラベル分布学習(LDL)がCNNトレーニングにおけるモデル校正を促進させると仮定した。
この仮定を検証するために,最近のデータ拡張技術を用いたシンプルなLCL設定を用いた。
一連の実験に基づいて、以下の結果が得られる。
1) 最先端KD法はモデル校正を著しく阻害する。
2)最近のデータ拡張を伴うldlを用いたトレーニングは,モデルキャリブレーションや一般化性能に優れた影響を与える可能性がある。
3) オンラインldlは,特に大規模モデルにおいて,長期トレーニングによるモデルキャリブレーションと精度がさらに向上する。
提案手法を用いて,画像分類データセットCIFAR10,100,STL10,ImageNetに対して,低ECEと高一般化性能を同時に達成した。
我々はいくつかの可視化と分析を行い、LCLを用いたCNNトレーニングでいくつかの興味深い行動を示した。
関連論文リスト
- An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - On the Importance of Calibration in Semi-supervised Learning [13.859032326378188]
State-of-the-art (SOTA) の半教師付き学習(SSL)手法はラベル付きデータとラベルなしデータの混在を活用することに成功している。
我々は、キャリブレーションを最適化し、標準ビジョンベンチマークでその有効性を実証する新しいSSLモデル群を紹介します。
論文 参考訳(メタデータ) (2022-10-10T15:41:44Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Scaling Laws for the Few-Shot Adaptation of Pre-trained Image
Classifiers [11.408339220607251]
ニューラルネットワークのスケーリング法則の実証科学は、機械学習の未来にとって重要な領域として急速に成長している。
我々の主な目的は、事前学習データの量が標準画像分類器の少数ショット一般化性能にどのように影響するかを検討することである。
論文 参考訳(メタデータ) (2021-10-13T19:07:01Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。