論文の概要: Alleviating Representational Shift for Continual Fine-tuning
- arxiv url: http://arxiv.org/abs/2204.10535v1
- Date: Fri, 22 Apr 2022 06:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:02:00.022867
- Title: Alleviating Representational Shift for Continual Fine-tuning
- Title(参考訳): 連続微調整における表現シフトの緩和
- Authors: Shibo Jie, Zhi-Hong Deng, Ziheng Li
- Abstract要約: 本研究では,継続学習の実践的な設定について考察する。
本稿では,2つのコンポーネント,クロスコンボリューションバッチ正規化 (Xconv BN) と階層的微調整 (hierarchical fine-tuning) を組み合わせた微細チューニング手法であるConFiTを提案する。
Xconv BNは、事前の畳み込み実行手段を維持し、テスト前の畳み込み後の手段を復元する。
- 参考スコア(独自算出の注目度): 13.335957004592407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study a practical setting of continual learning: fine-tuning on a
pre-trained model continually. Previous work has found that, when training on
new tasks, the features (penultimate layer representations) of previous data
will change, called representational shift. Besides the shift of features, we
reveal that the intermediate layers' representational shift (IRS) also matters
since it disrupts batch normalization, which is another crucial cause of
catastrophic forgetting. Motivated by this, we propose ConFiT, a fine-tuning
method incorporating two components, cross-convolution batch normalization
(Xconv BN) and hierarchical fine-tuning. Xconv BN maintains pre-convolution
running means instead of post-convolution, and recovers post-convolution ones
before testing, which corrects the inaccurate estimates of means under IRS.
Hierarchical fine-tuning leverages a multi-stage strategy to fine-tune the
pre-trained network, preventing massive changes in Conv layers and thus
alleviating IRS. Experimental results on four datasets show that our method
remarkably outperforms several state-of-the-art methods with lower storage
overhead.
- Abstract(参考訳): 本研究では,継続学習の実践的な設定について考察する。
以前の研究によると、新しいタスクのトレーニングでは、以前のデータの機能(最多の層表現)が変更され、表現シフトと呼ばれる。
特徴のシフトに加えて、中間層の表現シフト(IRS)もバッチ正規化を乱すため重要であり、これは破滅的な忘れ込みのもう一つの重要な原因である。
そこで本研究では,クロスコンボリューションバッチ正規化(Xconv BN)と階層的微調整という2つのコンポーネントを組み込んだ微細チューニング手法であるConFiTを提案する。
Xconv BNは、事前の畳み込み実行手段を維持し、テスト前の畳み込み後の手段を復元する。
階層的な微調整は、事前トレーニングされたネットワークを微調整するマルチステージ戦略を活用し、Conv層の大規模な変更を防止し、IRSを緩和する。
4つのデータセットによる実験結果から,本手法はストレージオーバーヘッドの低い最先端手法よりも著しく優れていることがわかった。
関連論文リスト
- Adversarial Vulnerability as a Consequence of On-Manifold Inseparibility [16.998477658358773]
分類タスクを考慮し,データ分布を低次元多様体として特徴付ける。
クリーントレーニングは、悪条件によるオフマニフォールド方向の収束不良を経験していると論じる。
我々は,長期トレーニングと2次手法の活用によるクリーントレーニングにおいて,実験を行い,大幅な堅牢性向上を示す。
論文 参考訳(メタデータ) (2024-10-09T14:18:52Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - Surgical Fine-Tuning Improves Adaptation to Distribution Shifts [114.17184775397067]
分散シフト下での伝達学習の一般的なアプローチは、事前訓練されたモデルの最後の数層を微調整することである。
本稿は, 階層のサブセットを選択的に微調整する手法が, 一般的に用いられている微調整手法と一致し, 性能が良くないことを示す。
論文 参考訳(メタデータ) (2022-10-20T17:59:15Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - Conditional Variational Autoencoder with Balanced Pre-training for
Generative Adversarial Networks [11.46883762268061]
クラス不均衡は、各クラスの画像数が大きく異なる画像分類を含む多くの実世界のアプリケーションで発生する。
不均衡なデータでは、GAN(Generative Adversarial Network)は多数派に傾いている。
本稿では, リアルな合成画像を生成するための拡張ツールとして, CAPGAN (Geneversarative Adrial Networks) のためのバランス付き事前学習機能を備えた新しい変分オートエンコーダを提案する。
論文 参考訳(メタデータ) (2022-01-13T06:52:58Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z) - SuperDeConFuse: A Supervised Deep Convolutional Transform based Fusion
Framework for Financial Trading Systems [29.411173536818477]
本研究は、金融株取引のための教師付きマルチチャネル時系列学習フレームワークを提案する。
我々のアプローチは、データチャネルを別々の1次元畳み込み層で処理し、それから出力を一連の完全に接続された層で融合し、最終的にソフトマックス分類層を適用します。
数値実験により,提案モデルにより,ストックトレーディングの現実問題に対する最先端のディープラーニング技術よりもかなり優れた結果が得られることを確認した。
論文 参考訳(メタデータ) (2020-11-09T11:58:12Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。