論文の概要: BYOL for Audio: Self-Supervised Learning for General-Purpose Audio
Representation
- arxiv url: http://arxiv.org/abs/2103.06695v1
- Date: Thu, 11 Mar 2021 14:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 21:40:44.210464
- Title: BYOL for Audio: Self-Supervised Learning for General-Purpose Audio
Representation
- Title(参考訳): BYOL for Audio: 汎用音響表現のための自己教師付き学習
- Authors: Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, and
Kunio Kashino
- Abstract要約: BYOL-Aは、汎用音声表現を学習するためのBYOLに基づくオーディオ自己監督学習方法です。
正規化と拡張技術の組み合わせにより、byol-aは様々な下流タスクで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 40.116109908079935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the recent progress in self-supervised learning for computer
vision that generates supervision using data augmentations, we explore a new
general-purpose audio representation learning approach. We propose learning
general-purpose audio representation from a single audio segment without
expecting relationships between different time segments of audio samples. To
implement this principle, we introduce Bootstrap Your Own Latent (BYOL) for
Audio (BYOL-A, pronounced "viola"), an audio self-supervised learning method
based on BYOL for learning general-purpose audio representation. Unlike most
previous audio self-supervised learning methods that rely on agreement of
vicinity audio segments or disagreement of remote ones, BYOL-A creates
contrasts in an augmented audio segment pair derived from a single audio
segment. With a combination of normalization and augmentation techniques,
BYOL-A achieves state-of-the-art results in various downstream tasks. Extensive
ablation studies also clarified the contribution of each component and their
combinations.
- Abstract(参考訳): コンピュータビジョンにおける自己監督学習の最近の進歩にインスパイアされ、データ拡張を用いた監督を生成するため、新たな汎用音声表現学習手法を検討する。
音声サンプルの異なる時間セグメント間の関係を期待することなく、単一のオーディオセグメントから汎用音声表現を学習することを提案する。
この原則を実現するために、汎用音声表現を学習するためのBiOLに基づくオーディオ自己監督学習方法であるBootstrap Your Own Latent(BYOL) for Audio(BYOL-A、発音「ビオラ」)を紹介します。
BYOL-Aは、近傍オーディオセグメントの一致や遠隔オーディオセグメントの不一致に依存する従来の音声自己教師学習法とは異なり、単一のオーディオセグメントから派生した拡張オーディオセグメントペアにおいてコントラストを生成する。
正規化と拡張技術の組み合わせにより、byol-aは様々な下流タスクで最先端の結果を得る。
広範なアブレーション研究はまた、各成分とその組み合わせの貢献を明確にした。
関連論文リスト
- AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-28T10:01:36Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。