論文の概要: On the Generalization and Causal Explanation in Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2410.00772v1
- Date: Tue, 1 Oct 2024 15:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:05:38.982119
- Title: On the Generalization and Causal Explanation in Self-Supervised Learning
- Title(参考訳): 自己指導型学習における一般化と因果説明について
- Authors: Wenwen Qiang, Zeen Song, Ziyin Gu, Jiangmeng Li, Changwen Zheng, Fuchun Sun, Hui Xiong,
- Abstract要約: 自己教師付き学習(SSL)手法はラベルのないデータから学習し、下流タスクで高い一般化性能を達成する。
また、トレーニングデータに過度に適合し、新しいタスクに適応する能力を失ってしまうこともある。
本研究では,事前学習した特徴抽出器の過度適合を緩和するプラグアンドプレイ方式Undoing Memorization Mechanism (UMM)を提案する。
- 参考スコア(独自算出の注目度): 38.60640119797591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) methods learn from unlabeled data and achieve high generalization performance on downstream tasks. However, they may also suffer from overfitting to their training data and lose the ability to adapt to new tasks. To investigate this phenomenon, we conduct experiments on various SSL methods and datasets and make two observations: (1) Overfitting occurs abruptly in later layers and epochs, while generalizing features are learned in early layers for all epochs; (2) Coding rate reduction can be used as an indicator to measure the degree of overfitting in SSL models. Based on these observations, we propose Undoing Memorization Mechanism (UMM), a plug-and-play method that mitigates overfitting of the pre-trained feature extractor by aligning the feature distributions of the early and the last layers to maximize the coding rate reduction of the last layer output. The learning process of UMM is a bi-level optimization process. We provide a causal analysis of UMM to explain how UMM can help the pre-trained feature extractor overcome overfitting and recover generalization. We also demonstrate that UMM significantly improves the generalization performance of SSL methods on various downstream tasks.
- Abstract(参考訳): 自己教師付き学習(SSL)手法はラベルのないデータから学習し、下流タスクで高い一般化性能を達成する。
しかし、トレーニングデータに過度に適合し、新しいタスクに適応する能力を失うこともある。
この現象を解明するために,我々は様々なSSL手法とデータセットの実験を行い,(1)後続のレイヤやエポックにおいて過度にオーバーフィッティングが発生する一方で,すべてのエポックにおいて早期のレイヤで特徴を学習する。(2)コードレートの低減は,SSLモデルにおける過度なオーバーフィッティングの度合いを測定する指標として利用できる。
これらの観測に基づいて,初期層と最終層の特徴分布を整列させて,事前学習した特徴抽出器の過度な適合を緩和し,最終層出力の符号化率を最大化するプラグアンドプレイ方式Undoing Memorization Mechanism (UMM)を提案する。
UMMの学習プロセスは二段階最適化プロセスである。
UMMの因果解析を行い、UMMが事前学習した特徴抽出器が過度に適合し、一般化を回復するのにどう役立つかを説明する。
また、UMMは、様々な下流タスクにおけるSSLメソッドの一般化性能を著しく向上することを示した。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning [13.535110749767451]
キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練させる。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-15T06:54:20Z) - Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。
バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。
また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:15:55Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - Evolving parametrized Loss for Image Classification Learning on Small
Datasets [1.4685355149711303]
本稿ではメタロスネットワーク(MLN)と呼ばれるパラメタ化損失関数の進化のためのメタラーニング手法を提案する。
本手法では,MLNを識別対象関数として分類学習の枠組みに組み込む。
実験の結果,MLNは古典的クロスエントロピー誤差や平均二乗誤差と比較して,一般化を効果的に改善した。
論文 参考訳(メタデータ) (2021-03-15T10:00:18Z) - Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for
the Characteristics of Few-Shot Tasks [30.893785366366078]
我々は,限られたデータを用いて視覚認識システムを構築する,少数ショット画像分類への実践的アプローチを開発した。
基本クラスセットラベルは不要であり、識別的埋め込みは教師なしの方法でメタ学習される可能性がある。
数ショットの学習ベンチマークの実験では、従来の手法よりも4~10%のパフォーマンス差で、アプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2020-11-30T10:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。