論文の概要: Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2104.06393v1
- Date: Tue, 13 Apr 2021 17:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:46:50.554035
- Title: Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding
- Title(参考訳): 音声言語理解のためのクリーンデータトレーニングと実世界推論のギャップを埋める
- Authors: Di Wu, Yiren Chen, Liang Ding, Dacheng Tao
- Abstract要約: 既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
- 参考スコア(独自算出の注目度): 76.89426311082927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) system usually consists of various
pipeline components, where each component heavily relies on the results of its
upstream ones. For example, Intent detection (ID), and slot filling (SF)
require its upstream automatic speech recognition (ASR) to transform the voice
into text. In this case, the upstream perturbations, e.g. ASR errors,
environmental noise and careless user speaking, will propagate to the ID and SF
models, thus deteriorating the system performance. Therefore, the
well-performing SF and ID models are expected to be noise resistant to some
extent. However, existing models are trained on clean data, which causes a
\textit{gap between clean data training and real-world inference.} To bridge
the gap, we propose a method from the perspective of domain adaptation, by
which both high- and low-quality samples are embedding into similar vector
space. Meanwhile, we design a denoising generation model to reduce the impact
of the low-quality samples. Experiments on the widely-used dataset, i.e. Snips,
and large scale in-house dataset (10 million training examples) demonstrate
that this method not only outperforms the baseline models on real-world (noisy)
corpus but also enhances the robustness, that is, it produces high-quality
results under a noisy environment. The source code will be released.
- Abstract(参考訳): 音声言語理解(slu)システムは通常、さまざまなパイプラインコンポーネントで構成され、各コンポーネントは上流コンポーネントの結果に大きく依存する。
例えば、インテント検出(ID)とスロットフィリング(SF)は、音声をテキストに変換するために上流の音声認識(ASR)を必要とする。
この場合、上流の摂動 (upstream perturbation) は、例えば、
ASRエラー、環境騒音、不注意なユーザの発話は、IDとSFモデルに伝播し、システム性能を低下させる。
したがって、良好な性能のSFモデルとIDモデルはある程度のノイズ耐性が期待できる。
しかし、既存のモデルはクリーンなデータに基づいてトレーニングされ、クリーンなデータトレーニングと実際の推論の間の \textit{gap を引き起こす。
このギャップを埋めるために,良質なサンプルと低品質のサンプルの両方を同じベクトル空間に埋め込む領域適応法を提案する。
一方,低品質サンプルの影響を低減するため,デノナイジング生成モデルを設計する。
広く使われているデータセット、すなわち、実験
snipと大規模な社内データセット(1000万のトレーニング例)は、この手法が現実世界(ノイズ)コーパスのベースラインモデルを上回るだけでなく、ノイズの多い環境で高品質な結果を生み出す堅牢性も向上していることを示している。
ソースコードはリリースされます。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - An Investigation of Noise in Morphological Inflection [21.411766936034]
本研究は, パイプライン内で発生するノイズの種類を, 真の教師なし形態素パラダイムの完成のために検討する。
異なる種類のノイズが複数の最先端インフレクションモデルに与える影響を比較した。
本稿では,文字レベルのマスク付き言語モデリング(CMLM)の事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T02:14:34Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。