論文の概要: Using Large Language Model for End-to-End Chinese ASR and NER
- arxiv url: http://arxiv.org/abs/2401.11382v2
- Date: Thu, 6 Jun 2024 05:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:00:12.525892
- Title: Using Large Language Model for End-to-End Chinese ASR and NER
- Title(参考訳): エンド・ツー・エンド中国語ASRとNERにおける大規模言語モデルの利用
- Authors: Yuang Li, Jiawei Yu, Min Zhang, Mengxin Ren, Yanqing Zhao, Xiaofeng Zhao, Shimin Tao, Jinsong Su, Hao Yang,
- Abstract要約: 本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 35.876792804001646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mapping speech tokens to the same feature space as text tokens has become the paradigm for the integration of speech modality into decoder-only large language models (LLMs). An alternative approach is to use an encoder-decoder architecture that incorporates speech features through cross-attention. This approach, however, has received less attention in the literature. In this work, we connect the Whisper encoder with ChatGLM3 and provide in-depth comparisons of these two approaches using Chinese automatic speech recognition (ASR) and name entity recognition (NER) tasks. We evaluate them not only by conventional metrics like the F1 score but also by a novel fine-grained taxonomy of ASR-NER errors. Our experiments reveal that encoder-decoder architecture outperforms decoder-only architecture with a short context, while decoder-only architecture benefits from a long context as it fully exploits all layers of the LLM. By using LLM, we significantly reduced the entity omission errors and improved the entity ASR accuracy compared to the Conformer baseline. Additionally, we obtained a state-of-the-art (SOTA) F1 score of 0.805 on the AISHELL-NER test set by using chain-of-thought (CoT) NER which first infers long-form ASR transcriptions and then predicts NER labels.
- Abstract(参考訳): 音声トークンをテキストトークンと同じ特徴空間にマッピングすることは、音声モダリティをデコーダのみの大規模言語モデル(LLM)に統合するためのパラダイムとなっている。
もう一つのアプローチは、クロスアテンションを通じて音声機能を組み込んだエンコーダ・デコーダアーキテクチャを使用することである。
しかし、このアプローチは文学においてあまり注目されていない。
本研究では、WhisperエンコーダをChatGLM3に接続し、中国語の自動音声認識(ASR)と名前エンティティ認識(NER)タスクを用いて、これらの2つのアプローチの詳細な比較を行う。
F1スコアなどの従来の指標だけでなく,ASR-NER誤差の詳細な分類法によって評価した。
実験の結果、エンコーダ-デコーダアーキテクチャは、短いコンテキストでデコーダのみのアーキテクチャよりも優れており、一方、デコーダのみのアーキテクチャはLLMの全レイヤをフル活用することで、長いコンテキストから恩恵を受けることがわかった。
LLMを用いることで,エンティティの省略誤差を大幅に低減し,コンバータベースラインと比較してエンティティASRの精度を向上した。
さらに,AISHELL-NERテストセットのSOTA(State-of-the-art)F1スコアの0.805を得た。
関連論文リスト
- Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models [23.383924361298874]
CTCとCASS-NATの利点を組み合わせた新しいエンコーダベースのNASRUniEnc-CASSNATを提案する。
提案したUniEnc-CASSNATは、最先端のNASR結果を実現し、エンコーダのみでCASS-NATに匹敵する。
論文 参考訳(メタデータ) (2024-02-14T02:11:04Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。