論文の概要: STOP: A dataset for Spoken Task Oriented Semantic Parsing
- arxiv url: http://arxiv.org/abs/2207.10643v1
- Date: Wed, 29 Jun 2022 00:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-24 11:49:56.368857
- Title: STOP: A dataset for Spoken Task Oriented Semantic Parsing
- Title(参考訳): STOP: タスク指向セマンティックパースのためのデータセット
- Authors: Paden Tomasello, Po-Chun Hsu, Akshat Shrivastava, Daniel Lazar, Duc
Le, Adithya Sagar, Ali Elkahky, Jade Copet, Wei-Ning Hsu, Yossef Mordechay,
Robin Algayres, Tu Ahn Nguyen, Emmanuel Dupoux, Luke Zettlemoyer, Abdelrahman
Mohamed
- Abstract要約: エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
- 参考スコア(独自算出の注目度): 66.14615249745448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end spoken language understanding (SLU) predicts intent directly from
audio using a single model. It promises to improve the performance of assistant
systems by leveraging acoustic information lost in the intermediate textual
representation and preventing cascading errors from Automatic Speech
Recognition (ASR). Further, having one unified model has efficiency advantages
when deploying assistant systems on-device. However, the limited number of
public audio datasets with semantic parse labels hinders the research progress
in this area. In this paper, we release the Spoken Task-Oriented semantic
Parsing (STOP) dataset, the largest and most complex SLU dataset to be publicly
available. Additionally, we define low-resource splits to establish a benchmark
for improving SLU when limited labeled data is available. Furthermore, in
addition to the human-recorded audio, we are releasing a TTS-generated version
to benchmark the performance for low-resource domain adaptation of end-to-end
SLU systems. Initial experimentation show end-to-end SLU models performing
slightly worse than their cascaded counterparts, which we hope encourages
future work in this direction.
- Abstract(参考訳): エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
中間テキスト表現で失われた音響情報を活用し、自動音声認識(ASR)によるカスケードエラーを防止することにより、アシスタントシステムの性能向上を約束する。
さらに、1つの統一モデルを持つことは、デバイスにアシスタントシステムをデプロイする場合の効率上の利点がある。
しかし、セマンティックパースラベルを持つ公開オーディオデータセットの数が限られているため、この分野の研究の進展は妨げられる。
本稿では,最大かつ最も複雑なSLUデータセットであるSpoken Task-Oriented semantic Parsing(STOP)データセットを公開する。
さらに,ラベル付きデータに制限がある場合に,SLUを改善するためのベンチマークを確立するために,低リソース分割を定義する。
さらに、人間録音音声に加えて、エンド・ツー・エンドSLUシステムの低リソース領域適応性能をベンチマークするTS生成バージョンもリリースしている。
最初の実験では、エンド・ツー・エンドのSLUモデルはカスケードモデルよりも若干悪い性能を示しており、今後この方向に進むことを願っている。
関連論文リスト
- Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Two-Pass Low Latency End-to-End Spoken Language Understanding [36.81762807197944]
我々は,E2E-SLUフレームワーク内にラベル付きテキストデータに基づいて事前学習した言語モデルを組み込んで,強力な意味表現を構築した。
本研究では,第1パスの音声数秒の音響情報を用いて低遅延予測を行う2パスSLUシステムを開発した。
私たちのコードとモデルは、ESPnet-SLUツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-07-14T05:50:16Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding [22.652754839140744]
音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。