論文の概要: Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice
- arxiv url: http://arxiv.org/abs/2111.12292v1
- Date: Wed, 24 Nov 2021 06:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:34:40.944407
- Title: Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice
- Title(参考訳): 事前学習データを活用した微調整の改善:理論と実践
- Authors: Ziquan Liu, Yi Xu, Yuanhong Xu, Qi Qian, Hao Li, Antoni Chan, Rong Jin
- Abstract要約: 対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
- 参考スコア(独自算出の注目度): 52.11183787786718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a dominant paradigm, fine-tuning a pre-trained model on the target data is
widely used in many deep learning applications, especially for small data sets.
However, recent studies have empirically shown that training from scratch has
the final performance that is no worse than this pre-training strategy once the
number of training iterations is increased in some vision tasks. In this work,
we revisit this phenomenon from the perspective of generalization analysis
which is popular in learning theory. Our result reveals that the final
prediction precision may have a weak dependency on the pre-trained model
especially in the case of large training iterations. The observation inspires
us to leverage pre-training data for fine-tuning, since this data is also
available for fine-tuning. The generalization result of using pre-training data
shows that the final performance on a target task can be improved when the
appropriate pre-training data is included in fine-tuning. With the insight of
the theoretical finding, we propose a novel selection strategy to select a
subset from pre-training data to help improve the generalization on the target
task. Extensive experimental results for image classification tasks on 8
benchmark data sets verify the effectiveness of the proposed data selection
based fine-tuning pipeline.
- Abstract(参考訳): 支配的なパラダイムとして、トレーニング済みモデルをターゲットデータに微調整することは、多くのディープラーニングアプリケーション、特に小さなデータセットで広く使われている。
しかしながら、近年の研究では、スクラッチからのトレーニングは、一部のビジョンタスクでトレーニングイテレーション数が増加すると、この事前トレーニング戦略よりも悪くはない、という実証的な結果が出ている。
本研究では,この現象を,学習理論でよく見られる一般化解析の観点から再考する。
以上の結果から,最終予測精度は,特に大規模なトレーニングイテレーションの場合,事前学習モデルに弱い依存性がある可能性が示唆された。
このデータも微調整に利用できるので、この観察は事前学習データを微調整に活用するきっかけとなる。
事前学習データを用いた一般化結果は、適切な事前学習データが微調整に含まれる場合に、目標タスクにおける最終性能を改善することができることを示している。
理論的発見の洞察を得て,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
8つのベンチマークデータセットにおける画像分類タスクの広範な実験結果から,提案するデータ選択に基づく微調整パイプラインの有効性が検証された。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - A Supervised Contrastive Learning Pretrain-Finetune Approach for Time
Series [15.218841180577135]
本稿では,教師付きコントラスト学習を利用して,事前学習データセット内の特徴を識別する新しい事前学習手法を提案する。
次に、事前学習データセットの学習力学とより密に連携することで、目標データの正確な予測を強化するための微調整手順を提案する。
論文 参考訳(メタデータ) (2023-11-21T02:06:52Z) - Better with Less: A Data-Active Perspective on Pre-Training Graph Neural
Networks [39.71761440499148]
グラフニューラルネットワーク(GNN)の事前トレーニングは、ラベルのないデータで下流タスクの転送可能な知識を学ぶことを目的としている。
より少ないが慎重に選択されたデータはGNNモデルに入力される。
実験の結果,提案手法により,より少ないトレーニングデータとより優れたダウンストリーム性能を有する効率的な事前学習モデルが得られることがわかった。
論文 参考訳(メタデータ) (2023-11-02T07:09:59Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - SEPT: Towards Scalable and Efficient Visual Pre-Training [11.345844145289524]
自己教師付き事前トレーニングは、ダウンストリームタスクのパフォーマンスを改善するために大規模なラベルなしデータを活用する大きな可能性を示している。
タスク固有の自己教師型事前学習フレームワークを構築し,対象タスクに類似した分布を持つ未ラベルサンプルの事前学習が,大幅な性能向上をもたらすという単純な仮説に基づいて構築する。
論文 参考訳(メタデータ) (2022-12-11T11:02:11Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。