論文の概要: Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive
Instruction-Tuning Benchmark for Speech
- arxiv url: http://arxiv.org/abs/2309.09510v1
- Date: Mon, 18 Sep 2023 06:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:50:56.609629
- Title: Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive
Instruction-Tuning Benchmark for Speech
- Title(参考訳): Dynamic-SUPERB:音声の動的・協調的・包括的指導調整ベンチマークを目指して
- Authors: Chien-yu Huang, Ke-Han Lu, Shih-Heng Wang, Chi-Yuan Hsiao, Chun-Yi
Kuan, Haibin Wu, Siddhant Arora, Kai-Wei Chang, Jiatong Shi, Yifan Peng,
Roshan Sharma, Shinji Watanabe, Bhiksha Ramakrishnan, Shady Shehata, Hung-yi
Lee
- Abstract要約: テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
- 参考スコア(独自算出の注目度): 110.03854819655098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text language models have shown remarkable zero-shot capability in
generalizing to unseen tasks when provided with well-formulated instructions.
However, existing studies in speech processing primarily focus on limited or
specific tasks. Moreover, the lack of standardized benchmarks hinders a fair
comparison across different approaches. Thus, we present Dynamic-SUPERB, a
benchmark designed for building universal speech models capable of leveraging
instruction tuning to perform multiple tasks in a zero-shot fashion. To achieve
comprehensive coverage of diverse speech tasks and harness instruction tuning,
we invite the community to collaborate and contribute, facilitating the dynamic
growth of the benchmark. To initiate, Dynamic-SUPERB features 55 evaluation
instances by combining 33 tasks and 22 datasets. This spans a broad spectrum of
dimensions, providing a comprehensive platform for evaluation. Additionally, we
propose several approaches to establish benchmark baselines. These include the
utilization of speech models, text language models, and the multimodal encoder.
Evaluation results indicate that while these baselines perform reasonably on
seen tasks, they struggle with unseen ones. We also conducted an ablation study
to assess the robustness and seek improvements in the performance. We release
all materials to the public and welcome researchers to collaborate on the
project, advancing technologies in the field together.
- Abstract(参考訳): テキスト言語モデルは、十分に定式化された命令が提供されたとき、見当たらないタスクに一般化する顕著なゼロショット能力を示している。
しかし、音声処理における既存の研究は、主に限定的あるいは特定のタスクに焦点を当てている。
さらに、標準ベンチマークの欠如は、異なるアプローチ間の公正な比較を妨げる。
そこで本稿では,命令チューニングを活用し,ゼロショット方式で複数のタスクを実行するユニバーサル音声モデル構築のためのベンチマークであるdynamic-superbを提案する。
多様な音声タスクの包括的なカバレッジと命令チューニングを実現するため、コミュニティに協力と貢献を呼びかけ、ベンチマークのダイナミックな成長を促進します。
Dynamic-SUPERBは、33のタスクと22のデータセットを組み合わせて55の評価インスタンスを特徴とする。
これは幅広い次元にまたがり、評価のための包括的なプラットフォームを提供する。
さらに,ベンチマークベースラインを確立するためのいくつかのアプローチを提案する。
これには、音声モデル、テキスト言語モデル、マルチモーダルエンコーダの利用が含まれる。
評価の結果、これらのベースラインは見かけのタスクで合理的に機能するが、目に見えないタスクに苦しむことがわかった。
また,ロバスト性の評価と性能改善のためのアブレーション調査を行った。
我々はすべての資料を一般に公開し、研究者にプロジェクトの共同研究を歓迎し、この分野のテクノロジーを進歩させます。
関連論文リスト
- AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension [98.69691822391069]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。