論文の概要: Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs.
Continual Pre-training
- arxiv url: http://arxiv.org/abs/2306.05278v1
- Date: Thu, 8 Jun 2023 15:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:48:27.111545
- Title: Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs.
Continual Pre-training
- Title(参考訳): plmsを用いたマイナショットインテント分類の再検討: 直接微調整と連続予訓練
- Authors: Haode Zhang, Haowen Liang, Liming Zhan, Xiao-Ming Wu, Albert Y.S. Lam
- Abstract要約: 少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
- 参考スコア(独自算出の注目度): 19.299285312415734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of few-shot intent detection, which involves training a
deep learning model to classify utterances based on their underlying intents
using only a small amount of labeled data. The current approach to address this
problem is through continual pre-training, i.e., fine-tuning pre-trained
language models (PLMs) on external resources (e.g., conversational corpora,
public intent detection datasets, or natural language understanding datasets)
before using them as utterance encoders for training an intent classifier. In
this paper, we show that continual pre-training may not be essential, since the
overfitting problem of PLMs on this task may not be as serious as expected.
Specifically, we find that directly fine-tuning PLMs on only a handful of
labeled examples already yields decent results compared to methods that employ
continual pre-training, and the performance gap diminishes rapidly as the
number of labeled data increases. To maximize the utilization of the limited
available data, we propose a context augmentation method and leverage
sequential self-distillation to boost performance. Comprehensive experiments on
real-world benchmarks show that given only two or more labeled samples per
class, direct fine-tuning outperforms many strong baselines that utilize
external data sources for continual pre-training. The code can be found at
https://github.com/hdzhang-code/DFTPlus.
- Abstract(参考訳): 我々は,少量のラベル付きデータのみを使用して,基礎となる意図に基づいて発話を分類する深層学習モデルのトレーニングを行う,マイトショットインテント検出のタスクについて検討する。
この問題に対処する現在のアプローチは、インテント分類子をトレーニングするために発話エンコーダとして使用する前に、外部リソース(会話コーパス、公開意図検出データセット、自然言語理解データセットなど)で事前学習済み言語モデル(plm)を継続的に調整することである。
本稿では,本課題におけるPLMの過度な適合問題は,予想されるほど深刻ではないため,継続事前学習は必須ではないことを示す。
特に,ラベル付き例のごく一部でplmを直接微調整することは,継続的な事前トレーニングを行う方法に比べ,すでに良好な結果をもたらしており,ラベル付きデータ数の増加に伴ってパフォーマンスギャップが急速に減少することがわかった。
限られたデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
実世界のベンチマークに関する総合的な実験は、クラスごとに2つ以上のラベル付きサンプルが与えられた場合、直接微調整は、外部データソースを使用して連続的な事前学習を行う強力なベースラインよりも優れていることを示している。
コードはhttps://github.com/hdzhang-code/DFTPlusにある。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Prior-Free Continual Learning with Unlabeled Data in the Wild [24.14279172551939]
本稿では,新しいタスクの学習モデルを段階的に更新するPFCL法を提案する。
PFCLはタスクのアイデンティティや以前のデータを知ることなく、新しいタスクを学習する。
実験の結果,PFCL法は3つの学習シナリオすべてにおいて,忘れを著しく軽減することがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:59:56Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Transfer Learning or Self-supervised Learning? A Tale of Two Pretraining
Paradigms [36.04356511882304]
自己教師付き学習(SSL)は、幅広いアプリケーションで有望な結果を示している。
データとタスクの性質について明確な理解が得られていないため、一方のアプローチがもう一方よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T05:21:00Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。