論文の概要: Complementary Language Model and Parallel Bi-LRNN for False Trigger
Mitigation
- arxiv url: http://arxiv.org/abs/2008.08113v1
- Date: Tue, 18 Aug 2020 18:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:02:57.678638
- Title: Complementary Language Model and Parallel Bi-LRNN for False Trigger
Mitigation
- Title(参考訳): 偽トリガー除去のための補完言語モデルと並列Bi-LRNN
- Authors: Rishika Agarwal, Xiaochuan Niu, Pranay Dighe, Srikanth Vishnubhotla,
Sameer Badaskar, Devang Naik
- Abstract要約: FTM(False trigger mitigation)は、偽トリガーイベントを検出し、ユーザに適切に応答するプロセスである。
ドメイン外データソースから学習した特別な言語モデルを用いて,並列ASR復号処理を導入することで,新しい解を提案する。
- 参考スコア(独自算出の注目度): 9.960986677222358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: False triggers in voice assistants are unintended invocations of the
assistant, which not only degrade the user experience but may also compromise
privacy. False trigger mitigation (FTM) is a process to detect the false
trigger events and respond appropriately to the user. In this paper, we propose
a novel solution to the FTM problem by introducing a parallel ASR decoding
process with a special language model trained from "out-of-domain" data
sources. Such language model is complementary to the existing language model
optimized for the assistant task. A bidirectional lattice RNN (Bi-LRNN)
classifier trained from the lattices generated by the complementary language
model shows a $38.34\%$ relative reduction of the false trigger (FT) rate at
the fixed rate of $0.4\%$ false suppression (FS) of correct invocations,
compared to the current Bi-LRNN model. In addition, we propose to train a
parallel Bi-LRNN model based on the decoding lattices from both language
models, and examine various ways of implementation. The resulting model leads
to further reduction in the false trigger rate by $10.8\%$.
- Abstract(参考訳): 音声アシスタントの誤ったトリガーは、意図しないアシスタントの呼び出しであり、ユーザー体験を損なうだけでなく、プライバシーを侵害する可能性がある。
false trigger mitigation (ftm) は、偽のトリガイベントを検出し、ユーザに適切に応答するプロセスである。
本稿では,ドメイン外データソースから学習した特別な言語モデルを用いた並列ASR復号処理を導入することで,FTM問題に対する新しい解を提案する。
このような言語モデルは、アシスタントタスクに最適化された既存の言語モデルを補完するものだ。
相補的な言語モデルによって生成された格子から訓練された双方向格子RNN(Bi-LRNN)分類器は、現在のBi-LRNNモデルと比較して、正しい呼び出しの0.4\%の偽トリガ(FT)レートを固定レートで38.34\%の相対的に減少させる。
さらに,両言語モデルからのデコード格子に基づく並列Bi-LRNNモデルを訓練し,様々な実装方法を検討することを提案する。
結果として得られたモデルは、偽トリガーレートを10.8\%$に下げる。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Multi-blank Transducers for Speech Recognition [49.6154259349501]
提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
論文 参考訳(メタデータ) (2022-11-04T16:24:46Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Adaptive Discounting of Implicit Language Models in RNN-Transducers [33.63456351411599]
RNN-Tアーキテクチャでは,軽量適応型LMディスカウント技術が利用できることを示す。
WERとレアワードPERの最大4%と14%の相対的削減を,会話型,コード混在型のHindi- English ASRタスクで達成した。
論文 参考訳(メタデータ) (2022-02-21T08:44:56Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。