論文の概要: Rethinking Why Intermediate-Task Fine-Tuning Works
- arxiv url: http://arxiv.org/abs/2108.11696v1
- Date: Thu, 26 Aug 2021 10:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:07:39.567239
- Title: Rethinking Why Intermediate-Task Fine-Tuning Works
- Title(参考訳): 中間タスクの微調整が機能する理由の再考
- Authors: Ting-Yun Chang and Chi-Jen Lu
- Abstract要約: STILTは事前訓練された言語モデルの性能をさらに向上させることができる。
従来の研究では、コモンセンス推論のような複雑な推論を伴う中間タスクは、RoBERTaでは特にうまく機能している。
- 参考スコア(独自算出の注目度): 4.294650528226682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supplementary Training on Intermediate Labeled-data Tasks (STILTs) is a
widely applied technique, which first fine-tunes the pretrained language models
on an intermediate task before on the target task of interest. While STILTs is
able to further improve the performance of pretrained language models, it is
still unclear why and when it works. Previous research shows that those
intermediate tasks involving complex inference, such as commonsense reasoning,
work especially well for RoBERTa. In this paper, we discover that the
improvement from an intermediate task could be orthogonal to it containing
reasoning or other complex skills -- a simple real-fake discrimination task
synthesized by GPT2 can benefit diverse target tasks. We conduct extensive
experiments to study the impact of different factors on STILTs. These findings
suggest rethinking the role of intermediate fine-tuning in the STILTs pipeline.
- Abstract(参考訳): 中間ラベル付きデータタスクの補助訓練(STILTs)は、まず、対象のタスクに先立って、中間タスクで事前訓練された言語モデルを微調整する手法である。
STILTは事前訓練された言語モデルの性能をさらに向上させることができるが、なぜ、いつ機能するのかは未だ不明である。
従来の研究では、コモンセンス推論のような複雑な推論を伴う中間タスクはRoBERTaで特にうまく機能している。
本稿では,中間タスクによる改善は推論やその他の複雑なスキルを含むタスクと直交する可能性があることを見出し,gpt2によって合成された単純なリアルフェイク識別タスクは多様なターゲットタスクの恩恵を受ける。
様々な要因がSTILTに与える影響について広範な実験を行った。
これらの結果はSTILTsパイプラインにおける中間微調整の役割を再考することを示唆している。
関連論文リスト
- Does the Order of Fine-tuning Matter and Why? [11.975836356680855]
本研究では,複数の中間タスクの微調整とその順序がタスク性能に及ぼす影響について検討する。
実験の結果,タスクオーダリングが目標タスクのパフォーマンスに与える影響は,パフォーマンスの最大6%,パフォーマンスの最大4%であることがわかった。
論文 参考訳(メタデータ) (2024-10-03T19:07:14Z) - Mitigating Interference in the Knowledge Continuum through Attention-Guided Incremental Learning [17.236861687708096]
Attention-Guided Incremental Learning' (AGILE)は、タスク間の干渉を効果的に軽減するために、コンパクトなタスク注意を組み込んだリハーサルベースのCLアプローチである。
AGILEは、タスク干渉を緩和し、複数のCLシナリオにおいてリハーサルベースのアプローチより優れていることで、一般化性能を著しく向上する。
論文 参考訳(メタデータ) (2024-05-22T20:29:15Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - "It's a Match!" -- A Benchmark of Task Affinity Scores for Joint
Learning [74.14961250042629]
MTL(Multi-Task Learning)は、その成功の条件を特徴づけることが、ディープラーニングにおいて依然としてオープンな問題である、と約束する。
共同学習におけるタスク親和性の推定は重要な取り組みである。
最近の研究は、訓練条件自体がMTLの結果に重大な影響を与えることを示唆している。
しかし,本研究では,タスク親和性評価手法の有効性を評価するためのベンチマークが欠落している。
論文 参考訳(メタデータ) (2023-01-07T15:16:35Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Intermediate-Task Transfer Learning with Pretrained Models for Natural
Language Understanding: When and Why Does It Work? [44.88358841370665]
特定の目標タスクに対して、中間タスクトレーニングが有益である時期と理由についてはあまり理解されていない。
110の中間目標タスクの組み合わせで事前学習したRoBERTaモデルを大規模に検討する。
高いレベルの推論と推論能力を必要とする中間タスクが最善である傾向が観察された。
論文 参考訳(メタデータ) (2020-05-01T21:49:34Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。