論文の概要: Investigating the Emergent Audio Classification Ability of ASR
Foundation Models
- arxiv url: http://arxiv.org/abs/2311.09363v1
- Date: Wed, 15 Nov 2023 20:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:42:38.348879
- Title: Investigating the Emergent Audio Classification Ability of ASR
Foundation Models
- Title(参考訳): ASR基礎モデルの創発的音声分類能力の検討
- Authors: Rao Ma, Adian Liusie, Mark J. F. Gales, Kate M. Knill
- Abstract要約: 本稿では,主に音声認識のために訓練された音声認識基礎モデルであるWhisperとMMSが,ゼロショット音声分類を行うことができることを示す。
以上の結果から,Whisperは8つのオーディオ分類データセットに対して有望なゼロショット分類性能を示し,既存のゼロショットベースラインの精度を平均9%向上させることを示した。
さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされるにつれて、ゼロショット性能が向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 43.34503390611175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text and vision foundation models can perform many tasks in a zero-shot
setting, a desirable property that enables these systems to be applied in
general and low-resource settings. However, there has been significantly less
work on the zero-shot abilities of ASR foundation models, with these systems
typically fine-tuned to specific tasks or constrained to applications that
match their training criterion and data annotation. In this work we investigate
the ability of Whisper and MMS, ASR foundation models trained primarily for
speech recognition, to perform zero-shot audio classification. We use simple
template-based text prompts at the decoder and use the resulting decoding
probabilities to generate zero-shot predictions. Without training the model on
extra data or adding any new parameters, we demonstrate that Whisper shows
promising zero-shot classification performance on a range of 8
audio-classification datasets, outperforming existing state-of-the-art
zero-shot baseline's accuracy by an average of 9%. One important step to unlock
the emergent ability is debiasing, where a simple unsupervised reweighting
method of the class probabilities yields consistent significant performance
gains. We further show that performance increases with model size, implying
that as ASR foundation models scale up, they may exhibit improved zero-shot
performance.
- Abstract(参考訳): テキストとビジョンの基礎モデルでは、ゼロショット設定で多くのタスクを実行できる。
しかし、asrの基礎モデルのゼロショット能力に関する作業は、通常、特定のタスクに微調整されたり、トレーニング基準やデータアノテーションに合致するアプリケーションに制限されたりしているため、かなり少ない。
本研究では,音声認識を主目的としたasr基礎モデルであるwhisperとmmsを用いて,ゼロショット音声分類を行う能力について検討する。
我々は、デコーダで単純なテンプレートベースのテキストプロンプトを使用し、結果として生じるデコード確率を用いてゼロショット予測を生成する。
余分なデータでモデルをトレーニングしたり、新しいパラメータを追加したりすることなく、Whisperは8つのオーディオ分類データセットに対して有望なゼロショット分類性能を示し、既存の最先端ゼロショットベースラインの精度を平均9%上回った。
創発能力を解き放つ重要なステップの1つはデバイアスであり、クラス確率の単純な教師なし再重み付けメソッドは一貫したパフォーマンス向上をもたらす。
さらに、モデルサイズによって性能が向上し、ASR基盤モデルがスケールアップされると、ゼロショット性能が向上する可能性があることを示す。
関連論文リスト
- Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Zero-Shot Robustification of Zero-Shot Models [13.143596481809508]
完全ゼロショット方式で事前学習したモデル埋め込みのロバスト性を改善する手法であるRoboShotを提案する。
まず、タスク記述から有用な洞察を得るために言語モデル(LM)を用いる。
これらの洞察は組み込まれ、有害なコンポーネントを取り除くために使われます。
論文 参考訳(メタデータ) (2023-09-08T14:15:47Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of
Vision-Language Models [17.00524909491351]
大規模でランダムに収集されたデータに基づいて訓練された視覚言語モデルは、その出現以来、多くの分野で大きな影響を与えている。
しかし、画像テキスト検索など様々な分野で優れた性能を発揮しているため、その内部動作はいまだに完全には理解されていない。
まずは、テストクラスが本当にゼロショットである程度(そしてどれ)を評価するトレーニングコーパスの分析から始めます。
これらのモデルの属性に基づくゼロショット学習能力の解析に続き、この古典的なゼロショットの概念が大規模なウェブ監視からどれだけうまく現れるかを評価する。
論文 参考訳(メタデータ) (2022-09-12T15:43:09Z) - Investigation of Ensemble features of Self-Supervised Pretrained Models
for Automatic Speech Recognition [0.3007949058551534]
自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。
本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
論文 参考訳(メタデータ) (2022-06-11T12:43:00Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。