論文の概要: A Comparative Study of Pre-training and Self-training
- arxiv url: http://arxiv.org/abs/2409.02751v1
- Date: Wed, 4 Sep 2024 14:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 17:55:43.311801
- Title: A Comparative Study of Pre-training and Self-training
- Title(参考訳): プレトレーニングとセルフトレーニングの比較研究
- Authors: Yiheng Wang, Jiayu Lin, Zuoquan Lin,
- Abstract要約: 本研究では,事前学習,自己学習,微調整を併用した,実現可能な訓練パラダイムを実証的に研究するためのアンサンブル手法を提案する。
我々は6つのデータセット、4つのデータ拡張、感情分析と自然言語推論タスクのための不均衡なデータについて実験を行った。
以上の結果から,事前学習と微調整のパラダイムが全体のパフォーマンスに最高の結果をもたらすことが確認された。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training and self-training are two approaches to semi-supervised learning. The comparison between pre-training and self-training has been explored. However, the previous works led to confusing findings: self-training outperforms pre-training experienced on some tasks in computer vision, and contrarily, pre-training outperforms self-training experienced on some tasks in natural language processing, under certain conditions of incomparable settings. We propose, comparatively and exhaustively, an ensemble method to empirical study all feasible training paradigms combining pre-training, self-training, and fine-tuning within consistent foundational settings comparable to data augmentation. We conduct experiments on six datasets, four data augmentation, and imbalanced data for sentiment analysis and natural language inference tasks. Our findings confirm that the pre-training and fine-tuning paradigm yields the best overall performances. Moreover, self-training offers no additional benefits when combined with semi-supervised pre-training.
- Abstract(参考訳): 事前学習と自己学習は、半教師付き学習の2つのアプローチである。
事前学習と自己学習の比較が検討されている。
しかし、以前の研究は、コンピュータビジョンのいくつかのタスクで経験した自己学習の成績と、逆に自然言語処理のタスクで経験した自己学習の成績と、ある種の相容れない設定下での自己学習の成績という、混乱した発見につながった。
我々は,データ強化に匹敵する一貫した基礎的設定の中で,事前学習,自己学習,微調整を併用した,実現可能な訓練パラダイムを実証的に研究するアンサンブル手法を提案する。
我々は6つのデータセット、4つのデータ拡張、感情分析と自然言語推論タスクのための不均衡なデータについて実験を行った。
以上の結果から,事前学習と微調整のパラダイムが全体のパフォーマンスに最高の結果をもたらすことが確認された。
さらに、セルフトレーニングは、半教師付き事前トレーニングと組み合わせることで、追加のメリットを提供する。
関連論文リスト
- The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [60.52921835351632]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - A Supervised Contrastive Learning Pretrain-Finetune Approach for Time
Series [15.218841180577135]
本稿では,教師付きコントラスト学習を利用して,事前学習データセット内の特徴を識別する新しい事前学習手法を提案する。
次に、事前学習データセットの学習力学とより密に連携することで、目標データの正確な予測を強化するための微調整手順を提案する。
論文 参考訳(メタデータ) (2023-11-21T02:06:52Z) - Improving In-Context Few-Shot Learning via Self-Supervised Training [48.801037246764935]
本稿では,事前学習と下流での撮影の中間訓練段階において,自己監督を併用することを提案する。
中間的な自己超越段階は、強いベースラインよりも優れたモデルを生成する。
論文 参考訳(メタデータ) (2022-05-03T18:01:07Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Better Self-training for Image Classification through Self-supervision [3.492636597449942]
自己監督(Self-supervision)は、自動生成されたプレテキストタスクを解決し、手動による監督なしに学習することである。
本稿では,画像分類の精度を高めるために,自己訓練に自己監督を取り入れる3つの方法について検討する。
論文 参考訳(メタデータ) (2021-09-02T08:24:41Z) - How Well Self-Supervised Pre-Training Performs with Streaming Data? [73.5362286533602]
ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。
ストリーミングデータでどのように連続的な自己監督プリトレーニングが実行されるかは不明です。
ストリーミングデータ内の分散シフトが軽度である場合,逐次自己教師付き学習は共同学習とほぼ同等の性能を示す。
論文 参考訳(メタデータ) (2021-04-25T06:56:48Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。