論文の概要: Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2106.15065v1
- Date: Tue, 29 Jun 2021 02:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:21:51.126482
- Title: Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding
- Title(参考訳): 分解可能なタスクのエンドツーエンド評価を再考する:音声言語理解のケーススタディ
- Authors: Siddhant Arora, Alissa Ostapenko, Vijay Viswanathan, Siddharth Dalmia,
Florian Metze, Shinji Watanabe, Alan W Black
- Abstract要約: 分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 101.24748444126982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decomposable tasks are complex and comprise of a hierarchy of sub-tasks.
Spoken intent prediction, for example, combines automatic speech recognition
and natural language understanding. Existing benchmarks, however, typically
hold out examples for only the surface-level sub-task. As a result, models with
similar performance on these benchmarks may have unobserved performance
differences on the other sub-tasks. To allow insightful comparisons between
competitive end-to-end architectures, we propose a framework to construct
robust test sets using coordinate ascent over sub-task specific utility
functions. Given a dataset for a decomposable task, our method optimally
creates a test set for each sub-task to individually assess sub-components of
the end-to-end model. Using spoken language understanding as a case study, we
generate new splits for the Fluent Speech Commands and Snips SmartLights
datasets. Each split has two test sets: one with held-out utterances assessing
natural language understanding abilities, and one with held-out speakers to
test speech processing skills. Our splits identify performance gaps up to 10%
between end-to-end systems that were within 1% of each other on the original
test sets. These performance gaps allow more realistic and actionable
comparisons between different architectures, driving future model development.
We release our splits and tools for the community.
- Abstract(参考訳): 分解可能なタスクは複雑で、サブタスクの階層から構成される。
例えば、音声意図予測は、自動音声認識と自然言語理解を組み合わせたものである。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例を示す。
その結果、これらのベンチマークで同様のパフォーマンスを持つモデルは、他のサブタスクで性能の差を観測できない可能性がある。
競合するエンドツーエンドアーキテクチャ間の洞察に富んだ比較を可能にするため、サブタスク固有のユーティリティ関数上の座標アセントを用いて堅牢なテストセットを構築するためのフレームワークを提案する。
分離可能なタスクのデータセットが与えられた場合,各サブタスクに対して,エンド・ツー・エンドモデルのサブコンポーネントを個別に評価するためのテストセットを最適に作成する。
音声言語理解のケーススタディとして,Fluent Speech CommandsとSnips SmartLightsデータセットの新しい分割を生成する。
各スプリットには、自然言語理解能力を評価する保留発話と、音声処理スキルをテストする保留話者の2つのテストセットがある。
当社の分割では、最初のテストセットで互いに1%以内のエンドツーエンドシステム間のパフォーマンスギャップを最大10%特定しています。
これらのパフォーマンスギャップは、異なるアーキテクチャ間のより現実的で実行可能な比較を可能にし、将来のモデル開発を促進する。
私たちはコミュニティのための分割とツールをリリースします。
関連論文リスト
- Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。
本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。
我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文 参考訳(メタデータ) (2023-02-11T14:02:08Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。