論文の概要: Joint Text and Label Generation for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2105.05052v1
- Date: Tue, 11 May 2021 14:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:07:40.885050
- Title: Joint Text and Label Generation for Spoken Language Understanding
- Title(参考訳): 音声言語理解のための共同テキストとラベル生成
- Authors: Yang Li, Ben Athiwaratkun, Cicero Nogueira dos Santos, Bing Xiang
- Abstract要約: 一般化は、特にデータが限られている場合、機械学習の中心的な問題です。
トレーニング前の言語モデル(LM)に埋め込まれた以前の情報を活用して、限られたトレーニングデータで意図分類やスロットラベリングタスクの一般化を改善することを提案する。
- 参考スコア(独自算出の注目度): 18.887577508945927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization is a central problem in machine learning, especially when data
is limited. Using prior information to enforce constraints is the principled
way of encouraging generalization. In this work, we propose to leverage the
prior information embedded in pretrained language models (LM) to improve
generalization for intent classification and slot labeling tasks with limited
training data. Specifically, we extract prior knowledge from pretrained LM in
the form of synthetic data, which encode the prior implicitly. We fine-tune the
LM to generate an augmented language, which contains not only text but also
encodes both intent labels and slot labels. The generated synthetic data can be
used to train a classifier later. Since the generated data may contain noise,
we rephrase the learning from generated data as learning with noisy labels. We
then utilize the mixout regularization for the classifier and prove its
effectiveness to resist label noise in generated data. Empirically, our method
demonstrates superior performance and outperforms the baseline by a large
margin.
- Abstract(参考訳): 一般化は機械学習の中心的な問題であり、特にデータが制限されている場合である。
制約を強制するために事前情報を使用することが、一般化を促進する原則である。
本稿では,事前学習型言語モデル(lm)に埋め込まれた事前情報を活用して,意図分類の一般化とスロットラベリングタスクを限定的なトレーニングデータで改善することを提案する。
具体的には,事前学習したLMから,事前知識を暗黙的に符号化した合成データとして抽出する。
テキストだけでなく、インテントラベルとスロットラベルの両方をエンコードする拡張言語を生成するために、LMを微調整する。
生成された合成データは、後に分類器のトレーニングに使用できる。
生成したデータはノイズを含む可能性があるため、生成したデータからの学習をノイズラベルによる学習として言い換える。
次に、ミキシングアウト正規化を分類器に利用し、生成データ中のラベルノイズに抵抗する効果を示す。
実験的に,本手法は優れた性能を示し,ベースラインを大きなマージンで上回る性能を示す。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - CoLaDa: A Collaborative Label Denoising Framework for Cross-lingual
Named Entity Recognition [30.307982013964576]
NER(クロスランガルな名前付きエンティティ認識)は、与えられたソース言語でラベル付きデータを活用することで、ターゲット言語によく一般化するNERシステムを訓練することを目的としている。
過去の研究は、ソース言語ラベル付きデータを翻訳したり、ターゲット言語ラベルなしデータに対して知識蒸留を行うことで、データの不足を軽減した。
この問題に対処するために,協調ラベル記述フレームワークであるCoLaDaを提案する。
論文 参考訳(メタデータ) (2023-05-24T09:03:01Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - Context-based Virtual Adversarial Training for Text Classification with
Noisy Labels [1.9508698179748525]
本研究では,テキスト分類器が雑音ラベルに過度に収まらないよう,コンテキストベースの仮想対位訓練(ConVAT)を提案する。
従来の手法とは異なり,提案手法は入力よりも文脈レベルで逆学習を行う。
2種類のラベルノイズを持つ4つのテキスト分類データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-29T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。