論文の概要: Scaling few-shot spoken word classification with generative meta-continual learning
- arxiv url: http://arxiv.org/abs/2605.13075v1
- Date: Wed, 13 May 2026 06:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.855024
- Title: Scaling few-shot spoken word classification with generative meta-continual learning
- Title(参考訳): 生成的メタコンチネンタル学習を用いた数発音声単語分類のスケーリング
- Authors: Louise Beyers, Batsirayi Mupamhi Ziki, Ruan van der Merwe,
- Abstract要約: 少数のクラスを考慮に入れたアプリケーションでは,ほとんど音声単語分類が開発されていない。
本稿では,音声単語分類器が,クラス毎に5つのショットしか与えられていない場合に,1000のクラスを連続的に区別する可能性について検討する。
- 参考スコア(独自算出の注目度): 1.8352113484137629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot spoken word classification has largely been developed for applications where a small number of classes is considered, and so the potential of larger-scale few-shot spoken word classification remains untapped. This paper investigates the potential of a spoken word classifier to sequentially learn to distinguish between 1000 classes when it is given only five shots per class. We demonstrate that this scaling capability exists by training a model using the Generative Meta-Continual Learning (GeMCL) algorithm and comparing it to repeatedly trained or finetuned baselines. We find that GeMCL produces exceptionally stable performance, and although it does not always outperform a repeatedly fully-finetuned HuBERT model nor a frozen HuBERT model with a repeatedly trained classifier head, it produces comparable performance to the latter while adapting 2000 times faster, having been trained less than half of the data for two orders of magnitude less time.
- Abstract(参考訳): 少数のクラスを考慮に入れたアプリケーションでは,音声単語分類がほとんど開発されていないため,より大規模な音声単語分類の可能性は未解決のままである。
本稿では,音声単語分類器が,クラス毎に5つのショットしか与えられていない場合に,1000のクラスを連続的に区別する可能性について検討する。
このスケーリング能力は、GeMCL(Generative Meta-Continual Learning)アルゴリズムを用いてモデルをトレーニングし、繰り返しトレーニングされたベースラインや微調整されたベースラインと比較することによって存在することを実証する。
GeMCLは極めて安定な性能を示しており、繰り返し完全に調整されたHuBERTモデルや、繰り返し訓練された分類器ヘッドによる凍結されたHuBERTモデルよりも常に優れるわけではないが、2000倍高速でデータの半分未満のトレーニングを2桁の時間で行うことで、後者に匹敵する性能を実現している。
関連論文リスト
- CAARMA: Class Augmentation with Adversarial Mixup Regularization [59.938216853878636]
話者検証は典型的なゼロショット学習課題である。
クラス拡張フレームワークであるCAARMAを紹介する。
当社のフレームワークは,すべてのベースラインモデルに対して,8%の大幅な改善を実現しています。
論文 参考訳(メタデータ) (2025-03-20T21:41:16Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - GMM-IL: Image Classification using Incrementally Learnt, Independent
Probabilistic Models for Small Sample Sizes [0.4511923587827301]
本稿では,視覚的特徴学習と確率モデルを組み合わせた2段階アーキテクチャを提案する。
我々は、ソフトマックスヘッドを用いた等価ネットワークのベンチマークを上回り、サンプルサイズが12以下の場合の精度が向上し、3つの不均衡なクラスプロファイルに対する重み付きF1スコアが向上した。
論文 参考訳(メタデータ) (2022-12-01T15:19:42Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - One vs Previous and Similar Classes Learning -- A Comparative Study [2.208242292882514]
この研究は、トレーニングされたモデルをスクラッチから再トレーニングすることなく更新できる3つの学習パラダイムを提案する。
その結果、提案されたパラダイムは更新時のベースラインよりも高速であり、そのうち2つはスクラッチからのトレーニング、特に大規模なデータセットでも高速であることが示された。
論文 参考訳(メタデータ) (2021-01-05T00:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。