論文の概要: Audio Barlow Twins: Self-Supervised Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2209.14345v1
- Date: Wed, 28 Sep 2022 18:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:48:07.383112
- Title: Audio Barlow Twins: Self-Supervised Audio Representation Learning
- Title(参考訳): オーディオバーロウツイン:自己監督型音声表現学習
- Authors: Jonah Anton, Harry Coppock, Pancham Shukla, Bjorn W.Schuller
- Abstract要約: 本稿では,新しい自己教師型音声表現学習手法であるAudio Barlow Twinsを紹介する。
大規模オーディオデータセットAudioSetの事前学習を行い,HEAR 2021 Challengeの18タスクにおける学習結果の質を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Barlow Twins self-supervised learning objective requires neither negative
samples or asymmetric learning updates, achieving results on a par with the
current state-of-the-art within Computer Vision. As such, we present Audio
Barlow Twins, a novel self-supervised audio representation learning approach,
adapting Barlow Twins to the audio domain. We pre-train on the large-scale
audio dataset AudioSet, and evaluate the quality of the learnt representations
on 18 tasks from the HEAR 2021 Challenge, achieving results which outperform,
or otherwise are on a par with, the current state-of-the-art for instance
discrimination self-supervised learning approaches to audio representation
learning. Code at https://github.com/jonahanton/SSL_audio.
- Abstract(参考訳): barlow twins self-supervised learning objectiveは、否定的なサンプルも非対称な学習アップデートも必要とせず、現在のコンピュータビジョンの最先端と同等の結果が得られる。
そこで,本研究では,新しい音声表現学習手法であるAudio Barlow Twinsを紹介し,Barlow Twinsを音声領域に適用する。
我々は,大規模オーディオデータセット音声セットを事前学習し,hear 2021チャレンジから18タスクにおける学習表現の品質を評価し,その結果が現在と同等である場合,例えば,音声表現学習に対する自己教師付き学習アプローチを識別する最先端技術を達成する。
コード: https://github.com/jonahanton/ssl_audio。
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - BYOL for Audio: Self-Supervised Learning for General-Purpose Audio
Representation [40.116109908079935]
BYOL-Aは、汎用音声表現を学習するためのBYOLに基づくオーディオ自己監督学習方法です。
正規化と拡張技術の組み合わせにより、byol-aは様々な下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-11T14:32:33Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。