論文の概要: ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2311.11375v1
- Date: Sun, 19 Nov 2023 16:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:45:52.010118
- Title: ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding
- Title(参考訳): ML-LMCL:音声言語理解におけるASRロバスト性向上のための相互学習と大規模コントラスト学習
- Authors: Xuxin Cheng, Bowen Cao, Qichen Ye, Zhihong Zhu, Hongxiang Li, Yuexian
Zou
- Abstract要約: 本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 55.39105863825107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) is a fundamental task in the
task-oriented dialogue systems. However, the inevitable errors from automatic
speech recognition (ASR) usually impair the understanding performance and lead
to error propagation. Although there are some attempts to address this problem
through contrastive learning, they (1) treat clean manual transcripts and ASR
transcripts equally without discrimination in fine-tuning; (2) neglect the fact
that the semantically similar pairs are still pushed away when applying
contrastive learning; (3) suffer from the problem of Kullback-Leibler (KL)
vanishing. In this paper, we propose Mutual Learning and Large-Margin
Contrastive Learning (ML-LMCL), a novel framework for improving ASR robustness
in SLU. Specifically, in fine-tuning, we apply mutual learning and train two
SLU models on the manual transcripts and the ASR transcripts, respectively,
aiming to iteratively share knowledge between these two models. We also
introduce a distance polarization regularizer to avoid pushing away the
intra-cluster pairs as much as possible. Moreover, we use a cyclical annealing
schedule to mitigate KL vanishing issue. Experiments on three datasets show
that ML-LMCL outperforms existing models and achieves new state-of-the-art
performance.
- Abstract(参考訳): 音声言語理解(SLU)はタスク指向対話システムの基本課題である。
しかしながら、自動音声認識(ASR)による避けられない誤りは、通常、理解性能を損ね、エラーの伝播につながる。
コントラスト学習によってこの問題に対処しようとする試みはいくつかあるが,(1)手書き文字とASR文字の書き起こしは微調整で等しく扱うこと,(2)コントラスト学習を適用する際に意味論的に類似したペアがまだ追い出されているという事実を無視すること,(3)KL(Kulback-Leibler)という問題に悩まされる。
本稿では,sluにおけるasrロバスト性向上のための新しい枠組みである,相互学習と大規模比較学習(ml-lmcl)を提案する。
具体的には、相互学習に適用し、2つのSLUモデルを手書き文字とASR文字で訓練し、これら2つのモデルの知識を反復的に共有することを目的としている。
また,クラスタ内ペアを可能な限り排除しないように,距離偏光正規化器を導入する。
さらに,klの消失を緩和するために周期的アニーリングスケジュールを用いる。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
関連論文リスト
- Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning [50.1035273069458]
音声言語理解(SLU)はタスク指向対話システムにおける中核的なタスクである。
本稿では,発話レベル,スロットレベル,単語レベルを含む3段階のコントラスト学習を実現するためのマルチレベルMMCLフレームワークを提案する。
本フレームワークは,2つの公開マルチインテリジェントSLUデータセットに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2024-05-31T14:34:23Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Contrastive Learning for Improving ASR Robustness in Spoken Language
Understanding [28.441725610692714]
本稿では,ASRの誤りに対して頑健な発話表現を,対照的な目的を用いて学習することに焦点を当てる。
3つのベンチマークデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-02T07:21:21Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding [22.652754839140744]
音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:08Z) - Robust Spoken Language Understanding with RL-based Value Error Recovery [35.82890898452309]
Spoken Language Understanding (SLU) は、音声認識されたテキストから構造化された意味表現(例えば、スロット値対)を抽出することを目的としている。
本稿では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。
パブリックCATSLUデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-09-07T13:32:07Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。