論文の概要: Understanding the Overfitting of the Episodic Meta-training
- arxiv url: http://arxiv.org/abs/2306.16873v2
- Date: Fri, 7 Jul 2023 02:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:45:17.642328
- Title: Understanding the Overfitting of the Episodic Meta-training
- Title(参考訳): エピソードなメタトレーニングのオーバーフィッティングを理解する
- Authors: Siqi Hui, Sanping Zhou, Ye deng, Jinjun Wang
- Abstract要約: 本研究では,教員モデルから新たな一般化知識を維持するために,知識蒸留技術を導入する。
具体的には,メタトレーニングにおいて,教師モデルを最高の検証精度を持つモデルとして選択する。
本稿では,メタトレーニングのためのNearest Neighbor Symmetric Kullback-Leibler(NNSKL)のばらつきを提案し,知識蒸留技術の限界を推し進める。
- 参考スコア(独自算出の注目度): 21.127324454759744
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the success of two-stage few-shot classification methods, in the
episodic meta-training stage, the model suffers severe overfitting. We
hypothesize that it is caused by over-discrimination, i.e., the model learns to
over-rely on the superficial features that fit for base class discrimination
while suppressing the novel class generalization. To penalize
over-discrimination, we introduce knowledge distillation techniques to keep
novel generalization knowledge from the teacher model during training.
Specifically, we select the teacher model as the one with the best validation
accuracy during meta-training and restrict the symmetric Kullback-Leibler (SKL)
divergence between the output distribution of the linear classifier of the
teacher model and that of the student model. This simple approach outperforms
the standard meta-training process. We further propose the Nearest Neighbor
Symmetric Kullback-Leibler (NNSKL) divergence for meta-training to push the
limits of knowledge distillation techniques. NNSKL takes few-shot tasks as
input and penalizes the output of the nearest neighbor classifier, which
possesses an impact on the relationships between query embedding and support
centers. By combining SKL and NNSKL in meta-training, the model achieves even
better performance and surpasses state-of-the-art results on several
benchmarks.
- Abstract(参考訳): 2段階のいくつかの分類法の成功にもかかわらず、エピソードなメタトレーニング段階では、モデルは厳しいオーバーフィッティングに苦しむ。
我々は、このモデルが、新しいクラス一般化を抑圧しながら、基礎クラス識別に適した表面的特徴を過剰に学習すること、すなわち、過剰な差別によって引き起こされると仮定する。
過度な差別を罰するために,教師モデルから新たな一般化知識を維持するための知識蒸留技術を導入する。
具体的には,教師モデルの線形分類器の出力分布と生徒モデルの出力分布との間には,メタトレーニング中の検証精度が最もよい教師モデルを選択し,対称kullback-leibler (skl) の発散を制限する。
この単純なアプローチは、標準的なメタトレーニングプロセスより優れている。
さらに,メタトレーニングのためのNearest Neighbor Symmetric Kullback-Leibler (NNSKL) の分岐を提案し,知識蒸留技術の限界を推し進める。
NNSKLは、クエリの埋め込みとサポートセンターの関係に影響を及ぼす近隣の分類器の出力を入力し、ペナルティ化する。
メタトレーニングにおいてsklとnnsklを組み合わせることで、モデルはさらに優れたパフォーマンスを実現し、いくつかのベンチマークで最先端の結果を上回っている。
関連論文リスト
- ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning [15.475427498268393]
TAALM(Train-Attention-Augmented Language Model)は,トークンに対する重み付けを動的に予測・適用することにより,学習効率を向上させる。
我々は,TAALMがベースライン上での最先端性能を証明し,従来のCKLアプローチと統合した場合に相乗的互換性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-24T01:04:34Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Bias Mitigating Few-Shot Class-Incremental Learning [17.185744533050116]
クラス増分学習は,限定された新規クラスサンプルを用いて,新規クラスを継続的に認識することを目的としている。
最近の手法では,段階的なセッションで特徴抽出器を微調整することにより,ベースクラスとインクリメンタルクラスの精度の不均衡を緩和している。
本研究では,FSCIL問題におけるモデルバイアスを緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T10:37:41Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。