論文の概要: SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks
- arxiv url: http://arxiv.org/abs/2212.10525v2
- Date: Thu, 15 Jun 2023 22:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 17:53:41.863016
- Title: SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks
- Title(参考訳): SLUE Phase-2: 多様な音声言語理解タスクのベンチマークスイート
- Authors: Suwon Shon, Siddhant Arora, Chyi-Jiunn Lin, Ankita Pasad, Felix Wu,
Roshan Sharma, Wei-Lun Wu, Hung-Yi Lee, Karen Livescu, Shinji Watanabe
- Abstract要約: 音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
- 参考スコア(独自算出の注目度): 88.4408774253634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) tasks have been studied for many decades
in the speech research community, but have not received as much attention as
lower-level tasks like speech and speaker recognition. In particular, there are
not nearly as many SLU task benchmarks, and many of the existing ones use data
that is not freely available to all researchers. Recent work has begun to
introduce such benchmark datasets for several tasks. In this work, we introduce
several new annotated SLU benchmark tasks based on freely available speech
data, which complement existing benchmarks and address gaps in the SLU
evaluation landscape. We contribute four tasks: question answering and
summarization involve inference over longer speech sequences; named entity
localization addresses the speech-specific task of locating the targeted
content in the signal; dialog act classification identifies the function of a
given speech utterance. We follow the blueprint of the Spoken Language
Understanding Evaluation (SLUE) benchmark suite. In order to facilitate the
development of SLU models that leverage the success of pre-trained speech
representations, we will be publishing for each task (i) annotations for a
relatively small fine-tuning set, (ii) annotated development and test sets, and
(iii) baseline models for easy reproducibility and comparisons. In this work,
we present the details of data collection and annotation and the performance of
the baseline models. We also perform sensitivity analysis of pipeline models'
performance (speech recognizer + text model) to the speech recognition
accuracy, using more than 20 state-of-the-art speech recognition models.
- Abstract(参考訳): 音声言語理解(SLU)タスクは、音声研究コミュニティで何十年も研究されてきたが、音声認識や話者認識のような低レベルタスクほど注目されていない。
特に、sluタスクベンチマークはそれほど多くなく、既存のものの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の作業では、いくつかのタスクのためのベンチマークデータセットの導入が始まっている。
本研究では,SLU評価環境における既存のベンチマークとアドレスギャップを補完する,自由可利用音声データに基づく新しい注釈付きSLUベンチマークタスクを紹介する。
質問応答と要約は、長い音声系列に対する推論を伴う; 名前付きエンティティローカライゼーションは、信号中のターゲットコンテンツを特定するための音声固有のタスクに対処する; ダイアログアクト分類は、与えられた発話の機能を識別する。
我々は,Spoken Language Understanding Evaluation (SLUE)ベンチマークスイートの青写真に従う。
事前学習した音声表現の成功を生かしたSLUモデルの開発を容易にするため,各課題について公開する。
(i)比較的小さな微調整セットに対するアノテーション
(ii)注釈付き開発及び試験セット、及び
(iii)再現性と比較の容易なベースラインモデル。
本稿では,データ収集とアノテーションの詳細とベースラインモデルの性能について述べる。
また,20以上の最先端音声認識モデルを用いて,音声認識精度に対するパイプラインモデルの性能(音声認識器+テキストモデル)の感度解析を行う。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。