論文の概要: CAARMA: Class Augmentation with Adversarial Mixup Regularization
- arxiv url: http://arxiv.org/abs/2503.16718v1
- Date: Thu, 20 Mar 2025 21:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:45.235388
- Title: CAARMA: Class Augmentation with Adversarial Mixup Regularization
- Title(参考訳): CAARMA: 逆混合正規化によるクラス拡張
- Authors: Massa Baali, Xiang Li, Hao Chen, Rita Singh, Bhiksha Raj,
- Abstract要約: CAARMAは話者認証のためのクラス拡張フレームワークである。
組込み空間におけるデータ混合を通じて合成クラスを導入し、トレーニングクラス数を拡大する。
我々は、複数の話者検証タスクにおけるCAARMAと、他の代表的ゼロショット比較に基づく音声分析タスクについて評価する。
- 参考スコア(独自算出の注目度): 34.02819618734268
- License:
- Abstract: Speaker verification is a typical zero-shot learning task, where inference of unseen classes is performed by comparing embeddings of test instances to known examples. The models performing inference must hence naturally generate embeddings that cluster same-class instances compactly, while maintaining separation across classes. In order to learn to do so, they are typically trained on a large number of classes (speakers), often using specialized losses. However real-world speaker datasets often lack the class diversity needed to effectively learn this in a generalizable manner. We introduce CAARMA, a class augmentation framework that addresses this problem by generating synthetic classes through data mixing in the embedding space, expanding the number of training classes. To ensure the authenticity of the synthetic classes we adopt a novel adversarial refinement mechanism that minimizes categorical distinctions between synthetic and real classes. We evaluate CAARMA on multiple speaker verification tasks, as well as other representative zero-shot comparison-based speech analysis tasks and obtain consistent improvements: our framework demonstrates a significant improvement of 8\% over all baseline models. Code for CAARMA will be released.
- Abstract(参考訳): 話者検証は典型的なゼロショット学習タスクであり、テストインスタンスの埋め込みを既知の例と比較することで、目に見えないクラスの推論を行う。
したがって推論を行うモデルは、クラス間の分離を維持しながら、同クラスのインスタンスをコンパクトにクラスタする埋め込みを自然に生成する必要がある。
そうすることを学ぶために、通常は多数のクラス(スピーカー)で訓練され、しばしば特別な損失を使用する。
しかし、実世界の話者データセットは、これを一般化可能な方法で効果的に学習するために必要なクラス多様性を欠いていることが多い。
本稿では,組込み空間におけるデータ混合により合成クラスを生成し,学習クラス数を拡大することにより,この問題に対処するクラス拡張フレームワークであるCAARMAを紹介する。
合成クラスの信頼性を確保するために, 合成クラスと実クラスとの分類的区別を最小限に抑える, 対角的改良機構を新たに導入する。
我々は、複数の話者検証タスクにおけるCAARMAと、他の代表的ゼロショット比較に基づく音声分析タスクについて評価し、一貫した改善を得た。
CAARMAのコードはリリースされる。
関連論文リスト
- Covariance-based Space Regularization for Few-shot Class Incremental Learning [25.435192867105552]
FSCIL(Few-shot Class Incremental Learning)では,ラベル付きデータに制限のあるクラスを継続的に学習する必要がある。
インクリメンタルセッションにおける限られたデータのため、モデルは新しいクラスを過度に適合させ、ベースクラスの破滅的な忘れを苦しむ傾向にある。
最近の進歩は、基本クラス分布を制約し、新しいクラスの識別的表現を学習するプロトタイプベースのアプローチに頼っている。
論文 参考訳(メタデータ) (2024-11-02T08:03:04Z) - Few-Shot Class-Incremental Learning via Training-Free Prototype
Calibration [67.69532794049445]
既存のメソッドでは、新しいクラスのサンプルをベースクラスに誤分類する傾向があり、新しいクラスのパフォーマンスが低下する。
我々は,新しいクラスの識別性を高めるため,簡易かつ効果的なトレーニング-フレア・カロブラシアン (TEEN) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-08T18:24:08Z) - Subclass-balancing Contrastive Learning for Long-tailed Recognition [38.31221755013738]
不均衡なクラス分布を持つロングテール認識は、実践的な機械学習アプリケーションで自然に現れる。
そこで我々は,各ヘッドクラスを複数のサブクラスにクラスタリングする,新しいサブクラスバランス・コントラッシブ・ラーニング・アプローチを提案する。
我々は,長期化ベンチマークデータセットの一覧からSBCLを評価し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-28T05:08:43Z) - MASIL: Towards Maximum Separable Class Representation for Few Shot Class
Incremental Learning [27.661609140918916]
FSCIL(Few Shot Class Incremental Learning)では,各段階的なセッションに対して,クラス毎の例が少ないことが,継続的な学習の現実的な設定である。
フレームワークMASILを最大分離型分類器の学習のためのステップとして提示する。
miniImageNet、CIFAR-100、CUB-200の実験結果は、MASILが全てのベンチマークより優れていることを示している。
論文 参考訳(メタデータ) (2023-04-08T13:31:02Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Multi-Class Classification from Single-Class Data with Confidences [90.48669386745361]
本稿では,損失/モデル/最適化非依存のリスク最小化フレームワークを提案する。
提案手法は, 与えられた信頼度が高ノイズであっても, 簡易な修正でベイズ整合性を示す。
論文 参考訳(メタデータ) (2021-06-16T15:38:13Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - One vs Previous and Similar Classes Learning -- A Comparative Study [2.208242292882514]
この研究は、トレーニングされたモデルをスクラッチから再トレーニングすることなく更新できる3つの学習パラダイムを提案する。
その結果、提案されたパラダイムは更新時のベースラインよりも高速であり、そのうち2つはスクラッチからのトレーニング、特に大規模なデータセットでも高速であることが示された。
論文 参考訳(メタデータ) (2021-01-05T00:28:38Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。