論文の概要: On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio
Classification
- arxiv url: http://arxiv.org/abs/2402.01274v1
- Date: Fri, 2 Feb 2024 10:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:03:41.962079
- Title: On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio
Classification
- Title(参考訳): 小規模音声分類への大規模自己スーパービジョンの転送性について
- Authors: Calum Heggan, Sam Budgett, Timothy Hosepedales, Mehrdad Yeghoobi
- Abstract要約: 自己教師付き学習は、ラベルのないデータから堅牢な特徴表現を学ぶ能力に優れています。
本研究は,大規模自己教師型モデルの性能を数ショット音声分類で評価する。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, self-supervised learning has excelled for its capacity to
learn robust feature representations from unlabelled data. Networks pretrained
through self-supervision serve as effective feature extractors for downstream
tasks, including Few-Shot Learning. While the evaluation of unsupervised
approaches for few-shot learning is well-established in imagery, it is notably
absent in acoustics. This study addresses this gap by assessing large-scale
self-supervised models' performance in few-shot audio classification.
Additionally, we explore the relationship between a model's few-shot learning
capability and other downstream task benchmarks. Our findings reveal
state-of-the-art performance in some few-shot problems such as
SpeechCommandsv2, as well as strong correlations between speech-based few-shot
problems and various downstream audio tasks.
- Abstract(参考訳): 近年,自己教師型学習は,非競合データから頑健な特徴表現を学習する能力に優れてきた。
自己監督を通じて事前訓練されたネットワークは、Few-Shot Learningを含む下流タスクのための効果的な特徴抽出器として機能する。
数ショット学習のための教師なしアプローチの評価は画像上では十分に確立されているが、音響学では特に欠落している。
本研究は,小規模音声分類における大規模自己教師付きモデルの性能を評価することで,このギャップを解消する。
さらに,モデルのマイナショット学習能力と他のダウンストリームタスクベンチマークとの関係について検討する。
以上の結果から, speechcommandsv2 などの数少ない問題や, 音声ベースの少数ショット問題と下流の様々な音声タスクとの強い相関性が明らかになった。
関連論文リスト
- Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Multi-annotator Deep Learning: A Probabilistic Framework for
Classification [2.445702550853822]
標準的なディープニューラルネットワークのトレーニングは、マルチアノテーションによる教師付き学習設定におけるサブパーパフォーマンスにつながる。
マルチアノテーション深層学習(MaDL)という確率的学習フレームワークを提案することでこの問題に対処する。
モジュラーネットワークアーキテクチャは、アノテータのパフォーマンスに関する様々な仮定を可能にする。
以上の結果から,MADLの最先端性能と,関連性のあるスパムアノテータに対する堅牢性が確認された。
論文 参考訳(メタデータ) (2023-04-05T16:00:42Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Improving In-Context Few-Shot Learning via Self-Supervised Training [48.801037246764935]
本稿では,事前学習と下流での撮影の中間訓練段階において,自己監督を併用することを提案する。
中間的な自己超越段階は、強いベースラインよりも優れたモデルを生成する。
論文 参考訳(メタデータ) (2022-05-03T18:01:07Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。