論文の概要: Deep CLAS: Deep Contextual Listen, Attend and Spell
- arxiv url: http://arxiv.org/abs/2409.17603v1
- Date: Thu, 26 Sep 2024 07:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 22:36:10.325080
- Title: Deep CLAS: Deep Contextual Listen, Attend and Spell
- Title(参考訳): Deep CLAS:Deep Contextual Listen, Attend, Spell
- Authors: Shifu Xiong, Mengzhi Wang, Genshun Wan, Hang Chen, Jianqing Gao, Lirong Dai,
- Abstract要約: CLAS(Contextual-LAS)は,まれな単語の自動音声認識の改善に有効であることが示されている。
本研究では,文脈情報をよりよく利用するための深層CLASを提案する。
- 参考スコア(独自算出の注目度): 18.716477027977525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual-LAS (CLAS) has been shown effective in improving Automatic Speech Recognition (ASR) of rare words. It relies on phrase-level contextual modeling and attention-based relevance scoring without explicit contextual constraint which lead to insufficient use of contextual information. In this work, we propose deep CLAS to use contextual information better. We introduce bias loss forcing model to focus on contextual information. The query of bias attention is also enriched to improve the accuracy of the bias attention score. To get fine-grained contextual information, we replace phrase-level encoding with character-level encoding and encode contextual information with conformer rather than LSTM. Moreover, we directly use the bias attention score to correct the output probability distribution of the model. Experiments using the public AISHELL-1 and AISHELL-NER. On AISHELL-1, compared to CLAS baselines, deep CLAS obtains a 65.78% relative recall and a 53.49% relative F1-score increase in the named entity recognition scene.
- Abstract(参考訳): CLAS(Contextual-LAS)は,まれな単語の自動音声認識(ASR)の改善に有効であることが示されている。
これは、文脈情報の不十分な使用につながる明示的な文脈制約を伴わずに、フレーズレベルの文脈モデリングと注意に基づく関連性スコアに頼っている。
本研究では,文脈情報をよりよく利用するための深層CLASを提案する。
本稿では,コンテキスト情報に着目したバイアス損失強制モデルを提案する。
バイアスアテンションのクエリも強化され、バイアスアテンションスコアの精度が向上する。
文脈情報を微粒化するために,句レベルのエンコーディングを文字レベルのエンコーディングに置き換え,コンストラクタによるコンストラクタによるエンコードを行う。
さらに、バイアスアテンションスコアを直接使用して、モデルの出力確率分布を補正する。
AISHELL-1とAISHELL-NERを用いた実験。
AISHELL-1では、CLASベースラインと比較して65.78%の相対的リコールと53.49%の相対的なF1スコア増加が得られる。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - Text Classification Based on Knowledge Graphs and Improved Attention
Mechanism [12.008192698720947]
モデルは文字レベルと単語レベルの両方で動作し、概念を統合することで理解を深める。
その性能はAGNews、Ohsumed、TagMyNewsなどのデータセットで実証されており、それぞれ75.1%、58.7%、68.5%の精度が達成されている。
論文 参考訳(メタデータ) (2024-01-07T22:20:55Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - CIF-based Collaborative Decoding for End-to-end Contextual Speech
Recognition [14.815422751109061]
コンテキストバイアスをより制御可能な方法でサポートするCIF(Continuous Integration-and-fire)ベースのモデルを提案する。
追加のコンテキスト処理ネットワークを導入し、コンテキスト埋め込みを抽出し、音響的に関連するコンテキスト情報を統合し、コンテキスト出力分布をデコードする。
提案手法は, 強ベースラインと比較して, 相対的文字誤り率 (CER) の8.83%/21.13%, 相対的名前付きエンティティ文字誤り率 (NE-CER) の40.14%/51.50%削減を実現する。
論文 参考訳(メタデータ) (2020-12-17T09:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。