論文の概要: SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and
Effective Hotword Customization Ability
- arxiv url: http://arxiv.org/abs/2308.03266v4
- Date: Mon, 25 Dec 2023 08:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 01:46:58.096441
- Title: SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and
Effective Hotword Customization Ability
- Title(参考訳): SeACo-Paraformer:フレキシブルで効果的なホットワードカスタマイズ機能を備えた非自己回帰型ASRシステム
- Authors: Xian Shi, Yexin Yang, Zerui Li, Yanni Chen, Zhifu Gao, Shiliang Zhang
- Abstract要約: フレキシブルで効果的なホットワードカスタマイズ機能を備えた新しいNARベースのASRシステムSeACo-Paraformer(SeACo-Paraformer)を提案する。
AEDベースのモデルの精度、NARモデルの効率、そして優れたパフォーマンスの明示的なカスタマイズ能力の利点を持っている。
- 参考スコア(独自算出の注目度): 41.14282471650695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hotword customization is one of the concerned issues remained in ASR field -
it is of value to enable users of ASR systems to customize names of entities,
persons and other phrases to obtain better experience. The past few years have
seen effective modeling strategies for ASR contextualization developed, but
they still exhibit space for improvement about training stability and the
invisible activation process. In this paper we propose Semantic-Augmented
Contextual-Paraformer (SeACo-Paraformer) a novel NAR based ASR system with
flexible and effective hotword customization ability. It possesses the
advantages of AED-based model's accuracy, NAR model's efficiency, and explicit
customization capacity of superior performance. Through extensive experiments
with 50,000 hours of industrial big data, our proposed model outperforms strong
baselines in customization. Besides, we explore an efficient way to filter
large-scale incoming hotwords for further improvement. The industrial models
compared, source codes and two hotword test sets are all open source.
- Abstract(参考訳): ホットワードのカスタマイズ(Hotword customization)は、ASRのフィールドに残る問題の一つであり、ASRシステムの利用者がエンティティ、人、その他のフレーズの名前をカスタマイズしてより良い経験を得ることを可能にするために価値がある。
過去数年間、asrコンテキスト化のための効果的なモデリング戦略が開発されてきたが、トレーニングの安定性と目に見えないアクティベーションプロセスに関する改善の余地がある。
本稿では,フレキシブルかつ効果的なホットワードカスタマイズ機能を有する新しいnar型asrシステムであるseaco-paraformerを提案する。
AEDベースのモデルの精度、NARモデルの効率、そして優れたパフォーマンスの明示的なカスタマイズ能力の利点を持っている。
5万時間に及ぶ産業用ビッグデータを用いた広範な実験を通じて,提案手法は,カスタマイズにおける強力なベースラインを上回っている。
さらに,大規模なホットワードをフィルタリングし,さらなる改良を行うための効率的な方法を探究する。
比較した産業モデルは、ソースコードと2つのホットワードテストセットがすべてオープンソースである。
関連論文リスト
- CTC-Assisted LLM-Based Contextual ASR [40.6542391788212]
効率的なフィルタリングアルゴリズムを用いたCTC支援LLM型コンテキストASRモデルを提案する。
我々のモデルは、稀に長い尾の単語を認識することを目的とした、Librispeechテストクリーンおよびテストサブセットにおいて1.27%/3.67%のWER/B-WERと2.72%/8.02%のWERを達成している。
論文 参考訳(メタデータ) (2024-11-10T11:47:50Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - DSTEA: Improving Dialogue State Tracking via Entity Adaptive
Pre-training [14.494088455520378]
対話状態追跡(DST)は、ユーザとシステム発話を包括的に解釈するために重要である。
DSTEAを提案し、Entity Adaptiveによる事前学習による対話状態追跡を改善する。
論文 参考訳(メタデータ) (2022-07-08T12:27:19Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Contextual Adapters for Personalized Speech Recognition in Neural
Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文 参考訳(メタデータ) (2022-05-26T22:46:28Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。