論文の概要: Deep Clustering For General-Purpose Audio Representations
- arxiv url: http://arxiv.org/abs/2110.08895v1
- Date: Sun, 17 Oct 2021 19:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 08:51:34.889422
- Title: Deep Clustering For General-Purpose Audio Representations
- Title(参考訳): 汎用音声表現のための深層クラスタリング
- Authors: Sreyan Ghosh and Sandesh V Katta and Ashish Seth and S. Umesh
- Abstract要約: 本稿では,汎用音声表現学習のための自己教師付き事前学習手法であるDECARを紹介する。
大規模Audiosetデータセットのバランスの取れたサブセットにDECARをプリトレーニングする。
これらの表現を、音声、音楽、動物音、音響シーンを含む9つの下流分類タスクに転送する。
- 参考スコア(独自算出の注目度): 2.8086459907382224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DECAR, a self-supervised pre-training approach for learning
general-purpose audio representations. Our system is based on clustering: it
utilizes an offline clustering step to provide target labels that act as
pseudo-labels for solving a prediction task. We develop on top of recent
advances in self-supervised learning for computer vision and design a
lightweight, easy-to-use self-supervised pre-training scheme. We pre-train
DECAR embeddings on a balanced subset of the large-scale Audioset dataset and
transfer those representations to 9 downstream classification tasks, including
speech, music, animal sounds, and acoustic scenes. Furthermore, we conduct
ablation studies identifying key design choices and also make all our code and
pre-trained models publicly available.
- Abstract(参考訳): 本稿では,汎用音声表現学習のための自己教師付き事前学習手法であるDECARを紹介する。
我々のシステムはクラスタリングに基づいており、オフラインクラスタリングのステップを使用して、予測タスクを解決するために擬似ラベルとして機能するターゲットラベルを提供する。
我々は,コンピュータビジョンのための自己教師付き学習の最近の進歩と,軽量で使いやすい自己教師付き事前学習スキームの設計の上に開発する。
大規模オーディオセットデータセットのバランスのとれたサブセットにデカル埋め込みを事前トレーニングし、これらの表現を音声、音楽、動物音、音響シーンを含む9つの下流分類タスクに転送する。
さらに,重要な設計選択を識別するアブレーション研究を行い,すべてのコードと事前学習モデルを公開する。
関連論文リスト
- Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation [53.06337011259031]
音声分類に自己教師付き学習を活用する新しい手法UnFuSeDを提案する。
エンコーダを用いて、実際の微調整ステップの前に、教師なしの微調整のための擬似ラベルを生成する。
UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-03-10T02:43:36Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Unsupervised Discriminative Learning of Sounds for Audio Event
Classification [43.81789898864507]
ネットワークベースの音声イベント分類は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。
我々は,教師なしモデルの事前トレーニングを音声データのみに限定し,ImageNetの事前トレーニングによるオンパーパフォーマンスを実現する,高速で効果的な代替手段を示す。
論文 参考訳(メタデータ) (2021-05-19T17:42:03Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。