論文の概要: Robust Spoken Language Understanding with RL-based Value Error Recovery
- arxiv url: http://arxiv.org/abs/2009.03095v1
- Date: Mon, 7 Sep 2020 13:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:13:32.166362
- Title: Robust Spoken Language Understanding with RL-based Value Error Recovery
- Title(参考訳): RLに基づく値誤り回復を用いたロバスト音声言語理解
- Authors: Chen Liu, Su Zhu, Lu Chen and Kai Yu
- Abstract要約: Spoken Language Understanding (SLU) は、音声認識されたテキストから構造化された意味表現(例えば、スロット値対)を抽出することを目的としている。
本稿では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。
パブリックCATSLUデータセットを用いた実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 35.82890898452309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Language Understanding (SLU) aims to extract structured semantic
representations (e.g., slot-value pairs) from speech recognized texts, which
suffers from errors of Automatic Speech Recognition (ASR). To alleviate the
problem caused by ASR-errors, previous works may apply input adaptations to the
speech recognized texts, or correct ASR errors in predicted values by searching
the most similar candidates in pronunciation. However, these two methods are
applied separately and independently. In this work, we propose a new robust SLU
framework to guide the SLU input adaptation with a rule-based value error
recovery module. The framework consists of a slot tagging model and a
rule-based value error recovery module. We pursue on an adapted slot tagging
model which can extract potential slot-value pairs mentioned in ASR hypotheses
and is suitable for the existing value error recovery module. After the value
error recovery, we can achieve a supervision signal (reward) by comparing
refined slot-value pairs with annotations. Since operations of the value error
recovery are non-differentiable, we exploit policy gradient based Reinforcement
Learning (RL) to optimize the SLU model. Extensive experiments on the public
CATSLU dataset show the effectiveness of our proposed approach, which can
improve the robustness of SLU and outperform the baselines by significant
margins.
- Abstract(参考訳): Spoken Language Understanding (SLU) は、音声認識(ASR)の誤りに苦しむ音声認識テキストから構造化された意味表現(例えば、スロット値ペア)を抽出することを目的としている。
ASRエラーによる問題を緩和するために、以前の研究は音声認識されたテキストに入力適応を適用したり、発音において最も類似した候補を検索して予測値の正しいASRエラーを修正したりすることができる。
しかし、これら2つの方法は独立して適用される。
本研究では,ルールベースの値エラー回復モジュールを用いてSLU入力適応を誘導する,新しいロバストなSLUフレームワークを提案する。
このフレームワークはスロットタグモデルとルールベースの値エラー回復モジュールで構成される。
我々は、ASR仮説で言及されている潜在的なスロット値ペアを抽出し、既存の値エラー回復モジュールに適した適応されたスロットタグモデルを提案する。
値エラー回復後、洗練されたスロット値ペアとアノテーションを比較することで、監督信号(reward)を実現できる。
値誤差回復の操作は微分不可能であるため、政策勾配に基づく強化学習(RL)を用いてSLUモデルを最適化する。
パブリックCATSLUデータセットの大規模な実験により,提案手法の有効性が示され,SLUのロバスト性を向上し,ベースラインをかなりのマージンで上回る結果が得られた。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding [22.652754839140744]
音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:08Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。