論文の概要: Self-Supervised Learning of Audio Representations from Permutations with
Differentiable Ranking
- arxiv url: http://arxiv.org/abs/2103.09879v1
- Date: Wed, 17 Mar 2021 19:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 08:01:00.129577
- Title: Self-Supervised Learning of Audio Representations from Permutations with
Differentiable Ranking
- Title(参考訳): 階調の異なる順からの音声表現の自己教師付き学習
- Authors: Andrew N Carr, Quentin Berthet, Mathieu Blondel, Olivier Teboul, Neil
Zeghidour
- Abstract要約: 我々は、音声信号のスペクトルのシャッフル部分の並べ替えをモデルに事前学習することで、置換から自己教師付き学習を進める。
逆順列は教師なしの方法で音声表現を学習するための有意義な前文課題であることを示す。
- 参考スコア(独自算出の注目度): 35.644680012765356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training using so-called "pretext" tasks has recently
shown impressive performance across a wide range of modalities. In this work,
we advance self-supervised learning from permutations, by pre-training a model
to reorder shuffled parts of the spectrogram of an audio signal, to improve
downstream classification performance. We make two main contributions. First,
we overcome the main challenges of integrating permutation inversions into an
end-to-end training scheme, using recent advances in differentiable ranking.
This was heretofore sidestepped by casting the reordering task as
classification, fundamentally reducing the space of permutations that can be
exploited. Our experiments validate that learning from all possible
permutations improves the quality of the pre-trained representations over using
a limited, fixed set. Second, we show that inverting permutations is a
meaningful pretext task for learning audio representations in an unsupervised
fashion. In particular, we improve instrument classification and pitch
estimation of musical notes by reordering spectrogram patches in the
time-frequency space.
- Abstract(参考訳): いわゆる "pretext" タスクを用いた自己教師型事前学習は,近年,幅広いモダリティにおいて顕著なパフォーマンスを示している。
本研究では,音響信号のスペクトログラムのシャッフル部分を再順序付けするモデルを事前学習することにより,順列から自己教師付き学習を前進させ,下流分類性能を向上させる。
主な貢献は2つある。
まず,最近の微分可能ランキングの進歩を活かして,置換インバージョンをエンドツーエンドのトレーニングスキームに統合する主な課題を克服する。
これはこれまで、リオーダータスクを分類としてキャストすることで、利用可能な置換の空間を根本的に減らした。
実験により,全ての可能な置換点から学習することで,制限された固定集合を用いて事前学習した表現の質が向上することを確認した。
第2に,逆順列は教師なしの方法で音声表現を学習するための有意義な前文課題であることを示す。
特に,スペクトルパッチを時間周波数空間に並べ替えることで,楽器の分類や音符のピッチ推定を改善する。
関連論文リスト
- Enhancing Recommendation with Denoising Auxiliary Task [2.819369786209738]
ユーザの振る舞いの任意性のため、ノイズの存在はリコメンデータシステムにおける次の行動を予測するための課題となる。
提案手法は, 推薦システムにおいて, より正確に雑音列を再重み付けすることを目的とした, 自己監督型補助タスクジョイントトレーニング (ATJT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T22:26:29Z) - Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens [27.08293218877395]
本稿では,話者ダイアリゼーションのためのニューラルモデルであるSortformerを提案する。
ダイアリゼーションモデルにより、PILの有無に関わらず、順列化を自律的に解決することのできる、ソートロス(Sort Loss)を導入する。
コードとトレーニングされたモデルはNVIDIA NeMoフレームワークを介して公開される。
論文 参考訳(メタデータ) (2024-09-10T17:20:11Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Collar-aware Training for Streaming Speaker Change Detection in
Broadcast Speech [0.0]
本稿では,話者変化検出モデルのための新しい学習手法を提案する。
提案手法では, 対象関数を用いて, モデルが特定のカラー内の1つの正のラベルを予測できるようにする。
論文 参考訳(メタデータ) (2022-05-14T15:35:43Z) - Learning neural audio features without supervision [14.526173151915662]
本稿では、下流分類のための主要なアーキテクチャと協調して、事前学習可能な両方のアプローチを組み合わせる可能性について検討する。
教師付きおよび自己教師型設定で使用する場合,学習コンポーネントの特性の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2022-03-29T12:59:08Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Class-incremental Learning using a Sequence of Partial Implicitly
Regularized Classifiers [0.0]
クラス増分学習では、トレーニングデータ全体にアクセスすることなく、複数のクラスを順次学習することが目的である。
CIFAR100データセットの実験では、提案手法がSOTAの性能を大きなマージンで向上させることが示された。
論文 参考訳(メタデータ) (2021-04-04T10:02:45Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。