論文の概要: Using Large Language Model for End-to-End Chinese ASR and NER
- arxiv url: http://arxiv.org/abs/2401.11382v1
- Date: Sun, 21 Jan 2024 03:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:44:06.975489
- Title: Using Large Language Model for End-to-End Chinese ASR and NER
- Title(参考訳): 大規模言語モデルを用いた中国語ASRとNER
- Authors: Yuang Li, Jiawei Yu, Yanqing Zhao, Min Zhang, Mengxin Ren, Xiaofeng
Zhao, Xiaosong Qiao, Chang Su, Miaomiao Ma, Hao Yang
- Abstract要約: 本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 14.176601983200527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mapping speech tokens to the same feature space as text tokens has become the
paradigm for the integration of speech modality into decoder-only large
language models (LLMs). An alternative approach is to use an encoder-decoder
architecture that incorporates speech features through cross-attention. This
approach, however, has received less attention in the literature. In this work,
we connect the Whisper encoder with ChatGLM3 and provide in-depth comparisons
of these two approaches using Chinese automatic speech recognition (ASR) and
name entity recognition (NER) tasks. We evaluate them not only by conventional
metrics like the F1 score but also by a novel fine-grained taxonomy of ASR-NER
errors. Our experiments reveal that encoder-decoder architecture outperforms
decoder-only architecture with a short context, while decoder-only architecture
benefits from a long context as it fully exploits all layers of the LLM. By
using LLM, we significantly reduced the entity omission errors and improved the
entity ASR accuracy compared to the Conformer baseline. Additionally, we
obtained a state-of-the-art (SOTA) F1 score of 0.805 on the AISHELL-NER test
set by using chain-of-thought (CoT) NER which first infers long-form ASR
transcriptions and then predicts NER labels.
- Abstract(参考訳): 音声トークンをテキストトークンと同じ機能空間にマッピングすることは、音声モダリティをデコーダのみの大型言語モデル(llm)に統合するパラダイムとなっている。
別のアプローチは、クロスアテンションを通じて音声機能を組み込んだエンコーダ・デコーダアーキテクチャを使用することである。
しかし、このアプローチは文献にはあまり注目されていない。
そこで本研究では,whisperエンコーダとchatglm3を接続し,中国語自動音声認識(asr)とner(name entity recognition)タスクを用いて,これら2つのアプローチを詳細に比較する。
F1スコアのような従来の指標だけでなく、ASR-NERエラーの詳細な分類によって評価する。
私たちの実験では、エンコーダ-デコーダアーキテクチャが短いコンテキストでデコーダのみのアーキテクチャを上回っているのに対して、デコーダのみのアーキテクチャはllmのすべてのレイヤをフル活用するため、長いコンテキストからメリットがあります。
LLMを用いることで,エンティティの省略誤差を大幅に低減し,コンバータベースラインと比較してエンティティASRの精度を向上した。
さらに,long-form asr転写を推定し,nerラベルを予測したchain-of-thought (cot) nerを用いて,aishell-nerテストセットにおけるsof-the-art (sota) f1スコア0.805を得た。
関連論文リスト
- Decoder-only Architecture for Streaming End-to-end Speech Recognition [45.161909551392085]
ブロックワイド自動音声認識(ASR)におけるデコーダのみのアーキテクチャを提案する。
提案手法では,ブロックワイズ音声サブネットワークを用いて,CTC出力とコンテキスト埋め込みを用いて音声特徴を圧縮し,デコーダのプロンプトとして順次提供する。
提案するデコーダのみのストリーミングASRは,ベースラインモデルの2倍の速度で,LibriSpeechテストの他セットの単語誤り率を8%削減する。
論文 参考訳(メタデータ) (2024-06-23T13:50:08Z) - UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models [23.383924361298874]
CTCとCASS-NATの利点を組み合わせた新しいエンコーダベースのNASRUniEnc-CASSNATを提案する。
提案したUniEnc-CASSNATは、最先端のNASR結果を実現し、エンコーダのみでCASS-NATに匹敵する。
論文 参考訳(メタデータ) (2024-02-14T02:11:04Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。