論文の概要: Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
- arxiv url: http://arxiv.org/abs/2501.07329v1
- Date: Mon, 13 Jan 2025 13:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:22:42.361735
- Title: Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
- Title(参考訳): 音声認識と構造学習の併用による音声認識の精度向上
- Authors: Jiliang Hu, Zuchao Li, Mengjia Shen, Haojun Ai, Sheng Li, Jun Zhang,
- Abstract要約: 本稿では,音声を正確に書き起こし,構造化コンテンツを同時に抽出できる共同音声認識・構造学習フレームワーク(JSRSL)を提案する。
提案手法は, 従来のシーケンス・ツー・シーケンス法よりも, 書き起こし能力と抽出能力の両面で優れていた。
- 参考スコア(独自算出の注目度): 25.986288893402225
- License:
- Abstract: Spoken language understanding (SLU) is a structure prediction task in the field of speech. Recently, many works on SLU that treat it as a sequence-to-sequence task have achieved great success. However, This method is not suitable for simultaneous speech recognition and understanding. In this paper, we propose a joint speech recognition and structure learning framework (JSRSL), an end-to-end SLU model based on span, which can accurately transcribe speech and extract structured content simultaneously. We conduct experiments on name entity recognition and intent classification using the Chinese dataset AISHELL-NER and the English dataset SLURP. The results show that our proposed method not only outperforms the traditional sequence-to-sequence method in both transcription and extraction capabilities but also achieves state-of-the-art performance on the two datasets.
- Abstract(参考訳): 音声言語理解(SLU)は、音声の分野における構造予測タスクである。
近年,SLUをシーケンス・ツー・シーケンスタスクとして扱う研究が盛んに行われている。
しかし,この手法は同時音声認識や理解には適していない。
本論文では,音声を正確に書き起こし,構造化コンテンツを同時に抽出できるSLUモデルである,共同音声認識・構造学習フレームワーク(JSRSL)を提案する。
我々は、中国語のデータセットAISHELL-NERと英語のデータセットSLURPを用いて、名前のエンティティ認識と意図分類の実験を行う。
その結果,提案手法は書き起こし能力と抽出能力の両方において従来のシーケンス・ツー・シーケンス法より優れるだけでなく,2つのデータセット上での最先端性能も達成できることがわかった。
関連論文リスト
- dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Meta Auxiliary Learning for Low-resource Spoken Language Understanding [11.002938634213734]
音声言語理解(SLU)は、音声認識(ASR)と自然言語理解(NLU)を統一的なタスクとして扱う。
低リソースSLUタスクの性能向上のために,メタ補助学習に基づくASRとNLUのジョイントトレーニング手法を利用する。
論文 参考訳(メタデータ) (2022-06-26T03:12:33Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。