論文の概要: What to Pre-Train on? Efficient Intermediate Task Selection
- arxiv url: http://arxiv.org/abs/2104.08247v1
- Date: Fri, 16 Apr 2021 17:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:23:56.845349
- Title: What to Pre-Train on? Efficient Intermediate Task Selection
- Title(参考訳): 事前トレーニングは?
中間タスク選択の効率化
- Authors: Clifton Poth, Jonas Pfeiffer, Andreas R\"uckl\'e and Iryna Gurevych
- Abstract要約: 中間タスクの微調整は、多くのNLPタスク間で大きな転送ゲインを達成している。
この研究で我々はまず、アダプタ設定で同様のシーケンシャルな微調整ゲインが達成できることを確かめる。
次に,提案手法を統合し,中間転送学習に有効なタスクを効率的に特定する。
- 参考スコア(独自算出の注目度): 46.15624815492324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intermediate task fine-tuning has been shown to culminate in large transfer
gains across many NLP tasks. With an abundance of candidate datasets as well as
pre-trained language models, it has become infeasible to run the cross-product
of all combinations to find the best transfer setting. In this work we first
establish that similar sequential fine-tuning gains can be achieved in adapter
settings, and subsequently consolidate previously proposed methods that
efficiently identify beneficial tasks for intermediate transfer learning. We
experiment with a diverse set of 42 intermediate and 11 target English
classification, multiple choice, question answering, and sequence tagging
tasks. Our results show that efficient embedding based methods that rely solely
on the respective datasets outperform computational expensive few-shot
fine-tuning approaches. Our best methods achieve an average Regret@3 of less
than 1% across all target tasks, demonstrating that we are able to efficiently
identify the best datasets for intermediate training.
- Abstract(参考訳): 中間タスクの微調整は多くのNLPタスク間で大きな転送ゲインを達成している。
候補データセットと事前訓練された言語モデルが豊富にあるため、すべての組み合わせのクロスプロダクトを実行して最適な転送設定を見つけることは不可能になっている。
この研究では、まず、アダプタ設定で同様の逐次的微調整が達成できることを確認し、その後、中間転送学習に有効なタスクを効率的に特定するための提案手法を統合する。
42の中間語と11のターゲット英語分類,複数選択,質問応答,シーケンスタグ付けタスクの多種多様なセットを用いて実験を行った。
その結果,各データセットのみに依存する効率的な組込み方式が,計算コストのかかるマイナショット微調整手法よりも優れていることがわかった。
私たちの最善の方法は、すべてのターゲットタスクで平均1%未満のresult@3を達成し、中間トレーニングで最適なデータセットを効率的に識別できることを示しています。
関連論文リスト
- Less is More: Parameter-Efficient Selection of Intermediate Tasks for Transfer Learning [5.119396962985841]
中間的タスク伝達学習はモデル性能を大幅に向上させることができる。
12kのソース・ターゲット対を用いたNLPタスク転送性とタスク選択に関する最大の研究を行う。
事前の手法でESMを適用すると、それぞれ10と278の因子による実行時間とディスクスペースの使用量が減少する。
論文 参考訳(メタデータ) (2024-10-19T16:22:04Z) - Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach [17.79010397902909]
目的タスクに対する言語モデル(LM)の微調整の問題について,$n$補助タスクの情報を用いて最適に検討する。
この問題には、NLPにおけるターゲット命令チューニングや、チェーン・オブ・ファインタニングにおけるデータ選択など、幅広い応用がある。
繰り返し学習せずにモデル微調整性能を推定する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-28T21:26:50Z) - Exploring the Effectiveness and Consistency of Task Selection in Intermediate-Task Transfer Learning [21.652389166495407]
転送性能は、異なるソースタスク間で大きなばらつきを示し、種を訓練する。
埋め込みのない方法やテキスト埋め込みと比較して、微調整された重みで構築されたタスク埋め込みは、タスク転送可能性をよりよく見積もることができる。
本稿では,内部積探索の最大化によるトークンの相互類似度の測定手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:31:43Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Selecting task with optimal transport self-supervised learning for
few-shot classification [15.088213168796772]
Few-Shot分類は、トレーニングプロセスで利用可能なサンプルはわずかである、という問題を解決することを目的としている。
本稿では,Few-Shot 学習のための類似タスクを選択して学習セットを構築するために,OTTS (Optimal Transport Task Selecting) という新しいタスク選択アルゴリズムを提案する。
OTTSは最適な輸送距離を計算してタスク類似度を測定し、自己監督戦略を通じてモデルトレーニングを完了させる。
論文 参考訳(メタデータ) (2022-04-01T08:45:29Z) - Identifying Suitable Tasks for Inductive Transfer Through the Analysis
of Feature Attributions [78.55044112903148]
我々は、単一タスクモデル間のニューラルネットワークアクティベーションの比較を通じて、タスクペアが相補的になるかどうかを予測するために、説明可能性技術を使用する。
提案手法により,TREC-IS 2020-Aデータセットでは,正のクラスF1の0.034の削減に留まらず,最大83.5%のトレーニング時間を短縮することが可能である。
論文 参考訳(メタデータ) (2022-02-02T15:51:07Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。