論文の概要: Speech2Slot: An End-to-End Knowledge-based Slot Filling from Speech
- arxiv url: http://arxiv.org/abs/2105.04719v1
- Date: Mon, 10 May 2021 13:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:07:07.215206
- Title: Speech2Slot: An End-to-End Knowledge-based Slot Filling from Speech
- Title(参考訳): Speech2Slot: 音声によるエンドツーエンドの知識ベーススロット
- Authors: Pengwei Wang, Xin Ye, Xiaohuan Zhou, Jinghui Xie, Hao Wang
- Abstract要約: 音声からスロットの境界を検出するために,Speech-to-Slot (Speech2Slot) という,エンドツーエンドの知識ベースのSFモデルを提案する。
当社のアプローチは、従来のパイプラインSLUアプローチよりも著しく優れており、最先端のエンドツーエンドSFアプローチを12.51%の精度改善で上回っています。
- 参考スコア(独自算出の注目度): 7.233717487318171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to conventional pipeline Spoken Language Understanding (SLU)
which consists of automatic speech recognition (ASR) and natural language
understanding (NLU), end-to-end SLU infers the semantic meaning directly from
speech and overcomes the error propagation caused by ASR. End-to-end slot
filling (SF) from speech is an essential component of end-to-end SLU, and is
usually regarded as a sequence-to-sequence generation problem, heavily relied
on the performance of language model of ASR. However, it is hard to generate a
correct slot when the slot is out-of-vovabulary (OOV) in training data,
especially when a slot is an anti-linguistic entity without grammatical rule.
Inspired by object detection in computer vision that is to detect the object
from an image, we consider SF as the task of slot detection from speech. In
this paper, we formulate the SF task as a matching task and propose an
end-to-end knowledge-based SF model, named Speech-to-Slot (Speech2Slot), to
leverage knowledge to detect the boundary of a slot from the speech. We also
release a large-scale dataset of Chinese speech for slot filling, containing
more than 830,000 samples. The experiments show that our approach is markedly
superior to the conventional pipeline SLU approach, and outperforms the
state-of-the-art end-to-end SF approach with 12.51% accuracy improvement.
- Abstract(参考訳): 音声認識(ASR)と自然言語理解(NLU)で構成される従来のパイプラインであるSpoken Language Understanding(SLU)とは対照的に、エンドツーエンドのSLUは、音声から直接意味を推測し、ASRによるエラー伝搬を克服する。
音声の終端スロットフィリング(SF)は、エンドツーエンドSLUの重要な構成要素であり、通常、ASRの言語モデルの性能に大きく依存するシーケンス・ツー・シーケンス生成問題と見なされる。
しかし、訓練データにおいてスロットが外語彙(OOV)である場合、特にスロットが文法規則のない反言語的エンティティである場合には、正しいスロットを生成することは困難である。
画像から物体を検出するコンピュータビジョンにおける物体検出に着想を得て,sfを音声からのスロット検出の課題として捉えた。
本稿では,SFタスクをマッチングタスクとして定式化し,音声からスロットの境界を検出するために,Speech2Slot(Speech2Slot)と呼ばれるエンドツーエンドの知識ベースSFモデルを提案する。
また,830,000以上のサンプルを含む,スロット充填のための中国語音声の大規模データセットもリリースした。
実験の結果,従来のパイプラインsluアプローチよりも著しく優れており,精度が12.51%向上し,最先端のエンドツーエンドsfアプローチよりも優れていることがわかった。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - CIF-PT: Bridging Speech and Text Representations for Spoken Language
Understanding via Continuous Integrate-and-Fire Pre-Training [16.361505093510665]
我々はCIF-PT(Continuous Integrate-and-Fire Pre-Training)と呼ばれる新しい事前学習パラダイムを提案する。
音声とテキストの表現をブリッジするために、CIF(Continuous Integration-and-fire)という、シンプルだが効果的なフレーム・ツー・トーケンアライメントに依存している。
CIF-PTは、意図分類とスロットフィリングのタスクにおいて、最先端モデルの精度を1.94%、SLU-F1の2.71%で上回る。
論文 参考訳(メタデータ) (2023-05-27T15:39:13Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z) - Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation [15.225080891662675]
音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。
LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
論文 参考訳(メタデータ) (2020-05-17T10:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。