論文の概要: Skit-S2I: An Indian Accented Speech to Intent dataset
- arxiv url: http://arxiv.org/abs/2212.13015v1
- Date: Mon, 26 Dec 2022 05:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:57:37.278490
- Title: Skit-S2I: An Indian Accented Speech to Intent dataset
- Title(参考訳): Skit-S2I:インド発声データセット
- Authors: Shangeth Rajaa, Swaraj Dalmia, Kumarmanas Nethil
- Abstract要約: Skit-S2Iは、銀行部門で最初に公開されたインド中心のSLUデータセットである。
音声から意図的分類のための韻律的特徴を欠いたASR事前学習表現よりも,SSL事前学習表現の方が若干よいことを示す。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional conversation assistants extract text transcripts from the speech
signal using automatic speech recognition (ASR) and then predict intent from
the transcriptions. Using end-to-end spoken language understanding (SLU), the
intents of the speaker are predicted directly from the speech signal without
requiring intermediate text transcripts. As a result, the model can optimize
directly for intent classification and avoid cascading errors from ASR. The
end-to-end SLU system also helps in reducing the latency of the intent
prediction model. Although many datasets are available publicly for
text-to-intent tasks, the availability of labeled speech-to-intent datasets is
limited, and there are no datasets available in the Indian accent. In this
paper, we release the Skit-S2I dataset, the first publicly available
Indian-accented SLU dataset in the banking domain in a conversational tonality.
We experiment with multiple baselines, compare different pretrained speech
encoder's representations, and find that SSL pretrained representations perform
slightly better than ASR pretrained representations lacking prosodic features
for speech-to-intent classification. The dataset and baseline code is available
at \url{https://github.com/skit-ai/speech-to-intent-dataset}
- Abstract(参考訳): 従来の会話アシスタントは、音声認識(ASR)を用いて音声信号からテキストの書き起こしを抽出し、その書き起こしから意図を予測する。
エンドツーエンドの音声言語理解(SLU)を用いて、話者の意図を中間テキストの書き起こしを必要とせず、音声信号から直接予測する。
その結果、モデルが意図分類を直接最適化し、ASRからのカスケードエラーを回避することができる。
エンドツーエンドのSLUシステムは、意図予測モデルのレイテンシ低減にも役立ちます。
多くのデータセットがテキスト対インテントタスクで公開されているが、ラベル付き音声対インテントデータセットは限られており、インドのアクセントで利用可能なデータセットはない。
本稿では,インドで初めて公開されたsluデータセットであるskit-s2iデータセットを,対話的トーナリティで公開する。
複数のベースラインを用いて実験を行い、異なる事前学習された音声エンコーダの表現を比較し、sslプリトレーニングされた表現がasrプリトレーニングされた表現よりも、音声から意図的な分類のための韻律的特徴を欠いた表現よりもわずかに優れていることを発見した。
データセットとベースラインコードは \url{https://github.com/skit-ai/speech-to-intent-dataset} で利用可能である。
関連論文リスト
- Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - Exploring Transfer Learning For End-to-End Spoken Language Understanding [8.317084844841323]
スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。
音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。
個々のタスクで訓練されたE2Eモデルの性能を上回ります。
論文 参考訳(メタデータ) (2020-12-15T19:02:15Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent
Systems [39.79749518035203]
音声から直接意図を抽出するエンド・ツー・エンド(E2E)ニューラルネットワーク音声-インテントシステムのトレーニングには,大量の意図ラベル付き音声データが必要である。
我々はCTCベースのS2Iシステムを実装し、最先端の従来のSLUシステムの性能に適合する。
論文 参考訳(メタデータ) (2020-10-08T22:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。