論文の概要: SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech
- arxiv url: http://arxiv.org/abs/2111.10367v1
- Date: Fri, 19 Nov 2021 18:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:12:18.748020
- Title: SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech
- Title(参考訳): SLUE:自然言語の音声理解評価のための新しいベンチマークタスク
- Authors: Suwon Shon, Ankita Pasad, Felix Wu, Pablo Brusco, Yoav Artzi, Karen
Livescu, Kyu J. Han
- Abstract要約: 音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
- 参考スコア(独自算出の注目度): 44.68649535280397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in speech processing has been facilitated by shared datasets and
benchmarks. Historically these have focused on automatic speech recognition
(ASR), speaker identification, or other lower-level tasks. Interest has been
growing in higher-level spoken language understanding tasks, including using
end-to-end models, but there are fewer annotated datasets for such tasks. At
the same time, recent work shows the possibility of pre-training generic
representations and then fine-tuning for several tasks using relatively little
labeled data. We propose to create a suite of benchmark tasks for Spoken
Language Understanding Evaluation (SLUE) consisting of limited-size labeled
training sets and corresponding evaluation sets. This resource would allow the
research community to track progress, evaluate pre-trained representations for
higher-level tasks, and study open questions such as the utility of pipeline
versus end-to-end approaches. We present the first phase of the SLUE benchmark
suite, consisting of named entity recognition, sentiment analysis, and ASR on
the corresponding datasets. We focus on naturally produced (not read or
synthesized) speech, and freely available datasets. We provide new
transcriptions and annotations on subsets of the VoxCeleb and VoxPopuli
datasets, evaluation metrics and results for baseline models, and an
open-source toolkit to reproduce the baselines and evaluate new models.
- Abstract(参考訳): 音声処理の進歩は、共有データセットとベンチマークによって促進されている。
歴史的にこれらは、自動音声認識(ASR)、話者識別、その他の下位レベルタスクに重点を置いている。
エンドツーエンドモデルの使用など、高レベルの言語理解タスクへの関心は高まっているが、そのようなタスクに対する注釈付きデータセットは少ない。
同時に、最近の研究は、ジェネリック表現を事前学習し、比較的少ないラベル付きデータを用いていくつかのタスクを微調整する可能性を示している。
本稿では,限定的なラベル付き学習セットと対応する評価セットからなる音声言語理解評価(SLUE)のためのベンチマークタスクスイートを作成することを提案する。
このリソースにより、研究コミュニティは進捗を追跡でき、より高いレベルのタスクに対する事前訓練された表現を評価し、パイプラインとエンドツーエンドのアプローチの実用性のようなオープンな質問を研究できる。
本稿では、名前付きエンティティ認識、感情分析、asrからなるslueベンチマークスイートの第1フェーズについて述べる。
我々は、自然に生成された(読み書きや合成されていない)音声と、自由に利用できるデータセットに焦点を当てる。
我々は,VoxCelebとVoxPopuliデータセットのサブセットに新たな転写とアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
関連論文リスト
- XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Quantifying the Task-Specific Information in Text-Based Classifications [20.148222318025528]
データセットのショートカットは、分類タスクの*task-specific information*(TSI)に寄与しない。
本稿では,データセットの分類にタスク固有の情報がどの程度必要かを検討する。
このフレームワークはデータセット間の比較を可能にし、"一連のショートカット機能"とは別に、Multi-NLIタスクの各サンプルの分類には、Quora Question Pairよりも約0.4ナットのTSIが含まれている、と述べている。
論文 参考訳(メタデータ) (2021-10-17T21:54:38Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - Towards Learning a Universal Non-Semantic Representation of Speech [18.54874934311111]
本稿では,非意味的タスクにおける音声表現の比較のためのベンチマークを提案し,教師なし三重項空間の目的に基づく表現を提案する。
提案した表現は、ベンチマーク上の他の表現よりも優れており、多くの伝達学習タスクにおける最先端のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2020-02-25T21:38:24Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。