論文の概要: On the Evaluation of Speech Foundation Models for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2406.10083v1
- Date: Fri, 14 Jun 2024 14:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:16:10.375590
- Title: On the Evaluation of Speech Foundation Models for Spoken Language Understanding
- Title(参考訳): 音声言語理解のための音声基礎モデルの評価について
- Authors: Siddhant Arora, Ankita Pasad, Chung-Ming Chien, Jionghao Han, Roshan Sharma, Jee-weon Jung, Hira Dhamyal, William Chen, Suwon Shon, Hung-yi Lee, Karen Livescu, Shinji Watanabe,
- Abstract要約: Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
- 参考スコア(独自算出の注目度): 87.52911510306011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Spoken Language Understanding Evaluation (SLUE) suite of benchmark tasks was recently introduced to address the need for open resources and benchmarking of complex spoken language understanding (SLU) tasks, including both classification and sequence generation tasks, on natural speech. The benchmark has demonstrated preliminary success in using pre-trained speech foundation models (SFM) for these SLU tasks. However, the community still lacks a fine-grained understanding of the comparative utility of different SFMs. Inspired by this, we ask: which SFMs offer the most benefits for these complex SLU tasks, and what is the most effective approach for incorporating these SFMs? To answer this, we perform an extensive evaluation of multiple supervised and self-supervised SFMs using several evaluation protocols: (i) frozen SFMs with a lightweight prediction head, (ii) frozen SFMs with a complex prediction head, and (iii) fine-tuned SFMs with a lightweight prediction head. Although the supervised SFMs are pre-trained on much more speech recognition data (with labels), they do not always outperform self-supervised SFMs; the latter tend to perform at least as well as, and sometimes better than, supervised SFMs, especially on the sequence generation tasks in SLUE. While there is no universally optimal way of incorporating SFMs, the complex prediction head gives the best performance for most tasks, although it increases the inference time. We also introduce an open-source toolkit and performance leaderboard, SLUE-PERB, for these tasks and modeling strategies.
- Abstract(参考訳): Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、自然言語による分類とシーケンス生成タスクを含む複雑な音声言語理解(SLU)タスクのベンチマークやオープンリソースの必要性に対処した。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
しかし、コミュニティには、異なるSFMの比較ユーティリティに関する微妙な理解がまだ欠けている。
SFMがこれらの複雑なSLUタスクに最も恩恵をもたらすものは何で、これらのSFMを組み込む上で最も効果的なアプローチは何か?
これに対応するために、複数の評価プロトコルを用いて、複数の教師付きおよび自己監督型SFMを広範囲に評価する。
(i)軽量予測ヘッド付き冷凍SFM
(II)複雑な予測ヘッド付き凍結SFM
(iii)軽量予測ヘッド付き微調整SFM。
教師付きSFMは、多くの音声認識データ(ラベル付き)で事前訓練されているが、必ずしも自己教師付きSFMよりも優れているわけではない。
SFMを普遍的に組み込む方法は存在しないが、複雑な予測ヘッドは推論時間を増加させるにも拘わらず、ほとんどのタスクに最適な性能を与える。
また、これらのタスクとモデリング戦略のためのオープンソースのツールキットとパフォーマンスリーダーボードSLUE-PERBを紹介します。
関連論文リスト
- FMDLlama: Financial Misinformation Detection based on Large Language Models [35.487700542961136]
大規模言語モデル (LLM) は様々な分野で優れた性能を示している。
本研究では,FMDLlamaを提案する。FMDLlamaは,FMDタスクのための,命令データを含む微調整Llama3.1に基づく最初のオープンソース命令追従LLMである。
FMD-B 上の様々な LLM と比較し,ChatGPT だけでなく,他のオープンソース LLM よりも優れています。
論文 参考訳(メタデータ) (2024-09-24T20:44:30Z) - Are Music Foundation Models Better at Singing Voice Deepfake Detection? Far-Better Fuse them with Speech Foundation Models [12.034908403186202]
歌唱音声深度検出(SVDD)において,音楽基礎モデル (MFM) と音声基礎モデル (SFM) が有効かを検討した。
話者認識SFM表現は、すべての基礎モデル(FM)の中で最高である。
論文 参考訳(メタデータ) (2024-09-21T12:50:53Z) - FedPFT: Federated Proxy Fine-Tuning of Foundation Models [55.58899993272904]
フェデレートラーニング(FL)を通じて下流タスクにファンデーションモデル(FM)を適用することは、データプライバシと価値のあるFMを保護するための有望な戦略として現れます。
FLのクライアントにサブFMを割り当てることによる既存のFMの微調整手法は、チューニングが不十分で勾配の必然的エラー蓄積が避けられないため、最適以下の性能をもたらす。
本稿では,FedPFT(Federated Proxy Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-04-17T16:30:06Z) - Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。
エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:00:35Z) - Speech foundation models on intelligibility prediction for
hearing-impaired listeners [4.742307809368852]
音声基礎モデル(SFM)は、多くの音声処理タスクでベンチマークされている。
本稿では,10個のSFMの体系的評価を行い,その1つの応用について述べる。
そこで本研究では,凍結したSFM上で特別な予測ヘッドを学習し,この問題に対処する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-01-24T18:26:52Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。