論文の概要: Improving In-Context Few-Shot Learning via Self-Supervised Training
- arxiv url: http://arxiv.org/abs/2205.01703v1
- Date: Tue, 3 May 2022 18:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 05:03:19.506657
- Title: Improving In-Context Few-Shot Learning via Self-Supervised Training
- Title(参考訳): 自己監督型トレーニングによるインテクスト・ファウショット学習の改善
- Authors: Mingda Chen, Jingfei Du, Ramakanth Pasunuru, Todor Mihaylov, Srini
Iyer, Veselin Stoyanov, Zornitsa Kozareva
- Abstract要約: 本稿では,事前学習と下流での撮影の中間訓練段階において,自己監督を併用することを提案する。
中間的な自己超越段階は、強いベースラインよりも優れたモデルを生成する。
- 参考スコア(独自算出の注目度): 48.801037246764935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pretraining has made few-shot learning possible for many NLP
tasks. But the pretraining objectives are not typically adapted specifically
for in-context few-shot learning. In this paper, we propose to use
self-supervision in an intermediate training stage between pretraining and
downstream few-shot usage with the goal to teach the model to perform
in-context few shot learning. We propose and evaluate four self-supervised
objectives on two benchmarks. We find that the intermediate self-supervision
stage produces models that outperform strong baselines. Ablation study shows
that several factors affect the downstream performance, such as the amount of
training data and the diversity of the self-supervised objectives.
Human-annotated cross-task supervision and self-supervision are complementary.
Qualitative analysis suggests that the self-supervised-trained models are
better at following task requirements.
- Abstract(参考訳): 自己教師付き事前学習は、多くのnlpタスクでわずかなショット学習を可能にした。
しかし、事前学習の目的は通常、コンテキスト内少数ショット学習に特化されていない。
本稿では,事前学習と下流における数ショット使用の中間訓練段階における自己監督を,テキスト内数ショット学習を行うためのモデルを教えることを目的として提案する。
2つのベンチマークで4つの自己監督目標を提案し評価する。
中間の自己スーパービジョンステージは強いベースラインを上回るモデルを生成する。
アブレーション研究は、訓練データの量や自己監督対象の多様性など、下流のパフォーマンスに影響するいくつかの要因を示している。
人間の注釈によるクロスタスクの監督と自己監督は補完的だ。
質的分析は、自己教師付き学習モデルがタスク要求に従うのに優れていることを示唆する。
関連論文リスト
- Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Do Vision-and-Language Transformers Learn Grounded Predicate-Noun
Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。
我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。
本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:07:00Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。