論文の概要: Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2104.06393v1
- Date: Tue, 13 Apr 2021 17:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:46:50.554035
- Title: Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding
- Title(参考訳): 音声言語理解のためのクリーンデータトレーニングと実世界推論のギャップを埋める
- Authors: Di Wu, Yiren Chen, Liang Ding, Dacheng Tao
- Abstract要約: 既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
- 参考スコア(独自算出の注目度): 76.89426311082927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) system usually consists of various
pipeline components, where each component heavily relies on the results of its
upstream ones. For example, Intent detection (ID), and slot filling (SF)
require its upstream automatic speech recognition (ASR) to transform the voice
into text. In this case, the upstream perturbations, e.g. ASR errors,
environmental noise and careless user speaking, will propagate to the ID and SF
models, thus deteriorating the system performance. Therefore, the
well-performing SF and ID models are expected to be noise resistant to some
extent. However, existing models are trained on clean data, which causes a
\textit{gap between clean data training and real-world inference.} To bridge
the gap, we propose a method from the perspective of domain adaptation, by
which both high- and low-quality samples are embedding into similar vector
space. Meanwhile, we design a denoising generation model to reduce the impact
of the low-quality samples. Experiments on the widely-used dataset, i.e. Snips,
and large scale in-house dataset (10 million training examples) demonstrate
that this method not only outperforms the baseline models on real-world (noisy)
corpus but also enhances the robustness, that is, it produces high-quality
results under a noisy environment. The source code will be released.
- Abstract(参考訳): 音声言語理解(slu)システムは通常、さまざまなパイプラインコンポーネントで構成され、各コンポーネントは上流コンポーネントの結果に大きく依存する。
例えば、インテント検出(ID)とスロットフィリング(SF)は、音声をテキストに変換するために上流の音声認識(ASR)を必要とする。
この場合、上流の摂動 (upstream perturbation) は、例えば、
ASRエラー、環境騒音、不注意なユーザの発話は、IDとSFモデルに伝播し、システム性能を低下させる。
したがって、良好な性能のSFモデルとIDモデルはある程度のノイズ耐性が期待できる。
しかし、既存のモデルはクリーンなデータに基づいてトレーニングされ、クリーンなデータトレーニングと実際の推論の間の \textit{gap を引き起こす。
このギャップを埋めるために,良質なサンプルと低品質のサンプルの両方を同じベクトル空間に埋め込む領域適応法を提案する。
一方,低品質サンプルの影響を低減するため,デノナイジング生成モデルを設計する。
広く使われているデータセット、すなわち、実験
snipと大規模な社内データセット(1000万のトレーニング例)は、この手法が現実世界(ノイズ)コーパスのベースラインモデルを上回るだけでなく、ノイズの多い環境で高品質な結果を生み出す堅牢性も向上していることを示している。
ソースコードはリリースされます。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Describe Where You Are: Improving Noise-Robustness for Speech Emotion Recognition with Text Description of the Environment [21.123477804401116]
音声感情認識(SER)システムは、周囲ノイズが性能を著しく低下させる現実世界環境でしばしば苦労する。
本稿では,騒音条件下でのSER性能を最大化するために,テスト環境の事前知識を活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T02:30:40Z) - Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - An Investigation of Noise in Morphological Inflection [21.411766936034]
本研究は, パイプライン内で発生するノイズの種類を, 真の教師なし形態素パラダイムの完成のために検討する。
異なる種類のノイズが複数の最先端インフレクションモデルに与える影響を比較した。
本稿では,文字レベルのマスク付き言語モデリング(CMLM)の事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T02:14:34Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。