論文の概要: Self-discipline on multiple channels
- arxiv url: http://arxiv.org/abs/2304.14224v1
- Date: Thu, 27 Apr 2023 14:34:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:10:22.956414
- Title: Self-discipline on multiple channels
- Title(参考訳): 複数チャンネル上の自己学際
- Authors: Jiutian Zhao, Liang Luo, Hao Wang
- Abstract要約: 既存の自己蒸留法では、トレーニングのために追加のモデル、モデル修正、バッチサイズ拡張が必要である。
本稿では, 整合正則化と自己蒸留を組み合わせたマルチチャンネル(SMC)上でのセルフディシプリリンを開発した。
SMCはモデルの一般化能力を改善するために一貫した正則化と自己蒸留を用いる。
- 参考スコア(独自算出の注目度): 3.9860001037346264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-distillation relies on its own information to improve the generalization
ability of the model and has a bright future. Existing self-distillation
methods either require additional models, model modification, or batch size
expansion for training, which increases the difficulty of use, memory
consumption, and computational cost. This paper developed Self-discipline on
multiple channels(SMC), which combines consistency regularization with
self-distillation using the concept of multiple channels. Conceptually, SMC
consists of two steps: 1) each channel data is simultaneously passed through
the model to obtain its corresponding soft label, and 2) the soft label saved
in the previous step is read together with the soft label obtained from the
current channel data through the model to calculate the loss function. SMC uses
consistent regularization and self-distillation to improve the generalization
ability of the model and the robustness of the model to noisy labels. We named
the SMC containing only two channels as SMC-2. Comparative experimental results
on both datasets show that SMC-2 outperforms Label Smoothing Regularizaion and
Self-distillation From The Last Mini-batch on all models, and outperforms the
state-of-the-art Sharpness-Aware Minimization method on 83% of the
models.Compatibility of SMC-2 and data augmentation experimental results show
that using both SMC-2 and data augmentation improves the generalization ability
of the model between 0.28% and 1.80% compared to using only data augmentation.
Ultimately, the results of the label noise interference experiments show that
SMC-2 curbs the tendency that the model's generalization ability decreases in
the late training period due to the interference of label noise. The code is
available at
https://github.com/JiuTiannn/SMC-Self-discipline-on-multiple-channels.
- Abstract(参考訳): 自己蒸留は、モデルの一般化能力を改善するために独自の情報に依存しており、明るい未来を持っている。
既存の自己蒸留法は、追加のモデル、モデル修正、訓練のためのバッチサイズ拡張を必要とするため、使用の困難さ、メモリ消費、計算コストが増大する。
本稿では,複数チャネルの概念を用いて,一貫性の正規化と自己蒸留を組み合わせたマルチチャネル(smc)上の自己分散法を開発した。
概念的には、smcは2つのステップからなる。
1) 各チャネルデータは同時にモデルに渡され、対応するソフトラベルが取得され、
2) 前段で保存したソフトラベルを、モデルを介して現在のチャネルデータから得られたソフトラベルと共に読み出し、損失関数を算出する。
SMCは、モデルの一般化能力とノイズラベルに対するモデルの堅牢性を改善するために、一貫した正則化と自己蒸留を用いる。
SMCは2チャンネルのみをSMC-2と命名した。
両データセットの比較実験結果から,SMC-2はモデル全体の83%において,全モデルにおける最終ミニバッチからのラベルの平滑化や自己蒸留よりも優れ,最先端のシャープネス・アウェアの最小化手法よりも優れており,SMC-2とデータ拡張実験の結果から,SMC-2とデータ拡張によるモデル全体の一般化能力は0.28%から1.80%向上していることがわかった。
ラベルノイズ干渉実験の結果、SMC-2はラベルノイズの干渉によりモデルの一般化能力が後期トレーニング期間に低下する傾向を抑えることが示された。
コードはhttps://github.com/jiutiannn/smc-self-discipline-on-multiple-channelsで入手できる。
関連論文リスト
- Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Tangent Model Composition for Ensembling and Continual Fine-tuning [69.92177580782929]
タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
TMCの精度は4.2%向上し、非線形微調整モデルの精度は4.2%向上した。
論文 参考訳(メタデータ) (2023-07-16T17:45:33Z) - Multimodal Transformer Distillation for Audio-Visual Synchronization [53.237653873618754]
本稿ではMTDVocaLiSTモデルを提案する。
MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。
論文 参考訳(メタデータ) (2022-10-27T15:53:38Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。