論文の概要: Speech Self-Supervised Representations Benchmarking: a Case for Larger
Probing Heads
- arxiv url: http://arxiv.org/abs/2308.14456v2
- Date: Wed, 21 Feb 2024 16:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:41:08.569367
- Title: Speech Self-Supervised Representations Benchmarking: a Case for Larger
Probing Heads
- Title(参考訳): 音声自己監督型表現ベンチマーク:より大きい頭部の1例
- Authors: Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco
Ravanelli
- Abstract要約: 自己教師付き学習(SSL)は、ラベルなし音声の大きなデータセットを活用して、注釈付きデータの少ない量で印象的なパフォーマンスを達成する。
本研究では,探索ヘッドアーキテクチャの変化によるベンチマーク結果の影響について検討する。
- 参考スコア(独自算出の注目度): 32.45539981205672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) leverages large datasets of unlabeled speech
to reach impressive performance with reduced amounts of annotated data. The
high number of proposed approaches fostered the emergence of comprehensive
benchmarks that evaluate their performance on a set of downstream tasks
exploring various aspects of the speech signal. However, while the number of
considered tasks has been growing, most proposals rely upon a single downstream
architecture that maps the frozen SSL representations to the task labels. This
study examines how benchmarking results are affected by changes in the probing
head architecture. Interestingly, we found that altering the downstream
architecture structure leads to significant fluctuations in the performance
ranking of the evaluated models. Against common practices in speech SSL
benchmarking, we evaluate larger-capacity probing heads, showing their impact
on performance, inference costs, generalization and multi-level feature
exploitation.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルなし音声の大きなデータセットを活用して、注釈付きデータの少ない量で印象的なパフォーマンスを達成する。
提案手法の多さは、音声信号の様々な側面を探索する一連の下流タスクにおける性能を評価する包括的なベンチマークの出現を促した。
しかしながら、考慮されたタスクの数が増えている一方で、ほとんどの提案は、凍結したSSL表現をタスクラベルにマップする単一のダウンストリームアーキテクチャに依存している。
本研究では,調査ヘッドアーキテクチャの変化がベンチマーク結果に与える影響について検討する。
興味深いことに、下流構造の変化は、評価されたモデルの性能ランキングに大きな変動をもたらすことがわかった。
音声sslベンチマークの一般的なプラクティスに対して,大容量検索ヘッドの評価を行い,その性能,推論コスト,一般化,マルチレベル機能活用への影響を示す。
関連論文リスト
- On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Speech Self-Supervised Representation Benchmarking: Are We Doing it
Right? [24.354848095744536]
自己教師付き学習(SSL)は、最近、ラベルなし音声信号の大規模なデータセットを活用して、音声タスクにおける印象的なパフォーマンスを実現した。
限定的なデコーダを使用したベンチマークは、開発したSSLモデルのサイズに反生産的な増加をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-06-01T08:51:18Z) - Deciphering the Projection Head: Representation Evaluation
Self-supervised Learning [6.375931203397043]
自己教師付き学習(SSL)は、ラベルなしで固有の特徴を学習することを目的としている。
プロジェクションヘッドは、ダウンストリームタスクのパフォーマンスを改善する上で、常に重要な役割を果たす。
本稿では,表現と投影ベクトルとのショートカット接続を構築するSSLモデルにおける表現評価設計(RED)を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:13:53Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - Evaluating the Impact of a Hierarchical Discourse Representation on
Entity Coreference Resolution Performance [3.7277082975620797]
本研究では,ニューラルアプローチで自動構築された対話解析木を活用する。
2つのベンチマークエンティティのコリファレンスレゾリューションデータセットにおける大幅な改善を示す。
論文 参考訳(メタデータ) (2021-04-20T19:14:57Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Towards Learning a Universal Non-Semantic Representation of Speech [18.54874934311111]
本稿では,非意味的タスクにおける音声表現の比較のためのベンチマークを提案し,教師なし三重項空間の目的に基づく表現を提案する。
提案した表現は、ベンチマーク上の他の表現よりも優れており、多くの伝達学習タスクにおける最先端のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2020-02-25T21:38:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。