論文の概要: Data Augmentation for Spoken Language Understanding via Pretrained
Language Models
- arxiv url: http://arxiv.org/abs/2004.13952v2
- Date: Thu, 11 Mar 2021 01:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:34:13.499086
- Title: Data Augmentation for Spoken Language Understanding via Pretrained
Language Models
- Title(参考訳): 事前学習言語モデルによる音声言語理解のためのデータ拡張
- Authors: Baolin Peng, Chenguang Zhu, Michael Zeng, Jianfeng Gao
- Abstract要約: 音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
- 参考スコア(独自算出の注目度): 113.56329266325902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of spoken language understanding (SLU) models often faces the
problem of data scarcity. In this paper, we put forward a data augmentation
method using pretrained language models to boost the variability and accuracy
of generated utterances. Furthermore, we investigate and propose solutions to
two previously overlooked semi-supervised learning scenarios of data scarcity
in SLU: i) Rich-in-Ontology: ontology information with numerous valid dialogue
acts is given; ii) Rich-in-Utterance: a large number of unlabelled utterances
are available. Empirical results show that our method can produce synthetic
training data that boosts the performance of language understanding models in
various scenarios.
- Abstract(参考訳): 音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
本稿では,学習済み言語モデルを用いたデータ拡張法を提案し,生成発話の可変性と精度を向上させる。
さらに、SLUにおけるデータ不足に関する2つの半教師あり学習シナリオについて検討し、提案する。
一 リッチ・イン・オントロジー:多数の有効な対話行為を有するオントロジー情報
ii) Rich-in-Utterance: 多数の未使用発話が利用可能である。
実験の結果,様々なシナリオにおける言語理解モデルの性能を高める総合的な学習データを生成することができた。
関連論文リスト
- Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Augmenting Slot Values and Contexts for Spoken Language Understanding
with Pretrained Models [45.477765875738115]
音声言語理解(SLU)は対話システムを構築するための重要なステップである。
ラベル付きデータを取得するのにコストがかかるため、SLUはデータ不足の問題に悩まされる。
本稿では,価値ベースと文脈ベースの拡張という,微調整プロセスのための2つの戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T02:52:40Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。