論文の概要: Locality enhanced dynamic biasing and sampling strategies for contextual
ASR
- arxiv url: http://arxiv.org/abs/2401.13146v1
- Date: Tue, 23 Jan 2024 23:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:52:23.312592
- Title: Locality enhanced dynamic biasing and sampling strategies for contextual
ASR
- Title(参考訳): コンテキストASRにおける局所性強化動的バイアスとサンプリング戦略
- Authors: Md Asif Jalal, Pablo Peso Parada, George Pavlidis, Vasileios
Moschopoulos, Karthikeyan Saravanan, Chrysovalantis-Giorgos Kontoulis, Jisi
Zhang, Anastasios Drosou, Gil Ho Lee, Jungin Lee, Seokyeong Jung
- Abstract要約: 文脈バイアス(CB)モジュールは、そのような文脈関連句に対してASRモデルをバイアスする。
本研究はまず,ASRにおけるCBのトレーニングに関する知見を提供するために,異なるサンプリング戦略を解析する。
次に,隣接するフレームに自己注意(SA)を局在させる近傍注意(NA)を導入する。
- 参考スコア(独自算出の注目度): 7.640373723875947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) still face challenges when recognizing
time-variant rare-phrases. Contextual biasing (CB) modules bias ASR model
towards such contextually-relevant phrases. During training, a list of biasing
phrases are selected from a large pool of phrases following a sampling
strategy. In this work we firstly analyse different sampling strategies to
provide insights into the training of CB for ASR with correlation plots between
the bias embeddings among various training stages. Secondly, we introduce a
neighbourhood attention (NA) that localizes self attention (SA) to the nearest
neighbouring frames to further refine the CB output. The results show that this
proposed approach provides on average a 25.84% relative WER improvement on
LibriSpeech sets and rare-word evaluation compared to the baseline.
- Abstract(参考訳): ASR(Automatic Speech Recognition)は、時変レアフレーズを認識する際にも課題に直面している。
文脈バイアス(CB)モジュールは、そのような文脈関連句に対してASRモデルをバイアスする。
トレーニング中、サンプリング戦略に従って、大きなフレーズプールからバイアス句のリストが選択される。
本研究ではまず,様々な学習段階におけるバイアス埋め込みの相関プロットを用いて,ASRにおけるCBのトレーニングに関する知見を提供するために,異なるサンプリング戦略を解析する。
次に、近辺のフレームに自己注意(SA)を局所化し、CB出力をさらに改善する近傍注意(NA)を導入する。
その結果,提案手法は,平均25.84%の相対的なWER改善と,ベースラインと比較したレアワード評価を提供することがわかった。
関連論文リスト
- Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Cross-utterance ASR Rescoring with Graph-based Label Propagation [14.669201156515891]
本稿では,グラフに基づくラベルの伝搬を反映した新しいASR N-best仮説を提案する。
従来のニューラルネットワークモデル(LM)をベースとしたASR再構成/格付けモデルとは対照的に,本手法は音響情報に重点を置いている。
論文 参考訳(メタデータ) (2023-03-27T12:08:05Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Small Changes Make Big Differences: Improving Multi-turn Response
Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning [27.914380392295815]
検索に基づく対話応答選択は、マルチターンコンテキストが与えられた候補集合から適切な応答を求めることを目的としている。
PLMに基づく応答選択タスクのための新しいtextbfFine-textbfGrained textbfContrastive (FGC) 学習法を提案する。
論文 参考訳(メタデータ) (2021-11-19T11:07:07Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - A bandit approach to curriculum generation for automatic speech
recognition [7.008190762572486]
本稿では,自動カリキュラム学習を用いて,学習データの欠如を緩和する手法を提案する。
このアプローチの目的は、難易度でランク付けされたミニバッチのトレーニングシーケンスを最適化することである。
我々は,本手法を真に低リソースな言語で検証し,ベースライン移行学習モデルに対して,帯域幅フレームワークが優れた改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-02-06T20:32:10Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。