論文の概要: Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2109.01583v1
- Date: Fri, 3 Sep 2021 15:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 15:53:47.608860
- Title: Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding
- Title(参考訳): 複数の雑音拡張データセットからの学習による言語間音声理解の改善
- Authors: Yingmei Guo and Linjun Shou and Jian Pei and Ming Gong and Mingxing Xu
and Zhiyong Wu and Daxin Jiang
- Abstract要約: トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
- 参考スコア(独自算出の注目度): 69.40915115518523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lack of training data presents a grand challenge to scaling out spoken
language understanding (SLU) to low-resource languages. Although various data
augmentation approaches have been proposed to synthesize training data in
low-resource target languages, the augmented data sets are often noisy, and
thus impede the performance of SLU models. In this paper we focus on mitigating
noise in augmented data. We develop a denoising training approach. Multiple
models are trained with data produced by various augmented methods. Those
models provide supervision signals to each other. The experimental results show
that our method outperforms the existing state of the art by 3.05 and 4.24
percentage points on two benchmark datasets, respectively. The code will be
made open sourced on github.
- Abstract(参考訳): トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でトレーニングデータを合成するために、様々なデータ拡張アプローチが提案されているが、拡張データセットはしばしばノイズが多く、SLUモデルの性能を阻害する。
本稿では,拡張データにおけるノイズの軽減に着目する。
我々はデノナイジングトレーニングアプローチを開発します。
複数のモデルは様々な拡張メソッドによって生成されたデータで訓練される。
これらのモデルは相互に監視信号を提供する。
実験の結果,本手法は2つのベンチマークデータセットにおいて,既存の技術水準を3.05ポイント,4.24ポイント上回った。
コードはgithubでオープンソース化される予定だ。
関連論文リスト
- Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Less is More: Accurate Speech Recognition & Translation without Web-Scale Data [26.461185681285745]
Canaryは多言語ASRおよび音声翻訳モデルである。
英語、フランス語、スペイン語、ドイツ語でWhisper、OWSM、Seamless-M4Tを上回っている。
論文 参考訳(メタデータ) (2024-06-28T06:22:23Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Augmenting Slot Values and Contexts for Spoken Language Understanding
with Pretrained Models [45.477765875738115]
音声言語理解(SLU)は対話システムを構築するための重要なステップである。
ラベル付きデータを取得するのにコストがかかるため、SLUはデータ不足の問題に悩まされる。
本稿では,価値ベースと文脈ベースの拡張という,微調整プロセスのための2つの戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T02:52:40Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。