論文の概要: Sound and Visual Representation Learning with Multiple Pretraining Tasks
- arxiv url: http://arxiv.org/abs/2201.01046v1
- Date: Tue, 4 Jan 2022 09:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 14:19:04.519078
- Title: Sound and Visual Representation Learning with Multiple Pretraining Tasks
- Title(参考訳): 複数の事前学習課題を用いた音・視覚表現学習
- Authors: Arun Balajee Vasudevan, Dengxin Dai, Luc Van Gool
- Abstract要約: 自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
- 参考スコア(独自算出の注目度): 104.11800812671953
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Different self-supervised tasks (SSL) reveal different features from the
data. The learned feature representations can exhibit different performance for
each downstream task. In this light, this work aims to combine Multiple SSL
tasks (Multi-SSL) that generalizes well for all downstream tasks. Specifically,
for this study, we investigate binaural sounds and image data in isolation. For
binaural sounds, we propose three SSL tasks namely, spatial alignment, temporal
synchronization of foreground objects and binaural audio and temporal gap
prediction. We investigate several approaches of Multi-SSL and give insights
into the downstream task performance on video retrieval, spatial sound super
resolution, and semantic prediction on the OmniAudio dataset. Our experiments
on binaural sound representations demonstrate that Multi-SSL via incremental
learning (IL) of SSL tasks outperforms single SSL task models and fully
supervised models in the downstream task performance. As a check of
applicability on other modality, we also formulate our Multi-SSL models for
image representation learning and we use the recently proposed SSL tasks,
MoCov2 and DenseCL. Here, Multi-SSL surpasses recent methods such as MoCov2,
DenseCL and DetCo by 2.06%, 3.27% and 1.19% on VOC07 classification and +2.83,
+1.56 and +1.61 AP on COCO detection. Code will be made publicly available.
- Abstract(参考訳): 異なる自己管理タスク(SSL)は、データと異なる特徴を明らかにします。
学習された特徴表現は、下流タスク毎に異なるパフォーマンスを示すことができる。
この点から見て、この作業は、ダウンストリームのすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としています。
具体的には,両耳音と画像データを分離して検討する。
両耳音については,空間アライメント,フォアグラウンドオブジェクトの時間同期,バイノーラル音声と時間ギャップ予測という3つのsslタスクを提案する。
我々は,マルチsslのいくつかのアプローチを調査し,ビデオ検索,空間音の超解像,omniaudioデータセットにおける意味予測における下流タスク性能について考察する。
両耳的音声表現実験により,sslタスクのインクリメンタルラーニング(il)によるマルチsslが,単一sslタスクモデルと完全教師付きモデルを上回ることを示した。
また、他のモダリティの適用性を確認するため、画像表現学習のためのマルチSSLモデルを定式化し、最近提案されたSSLタスクであるMoCov2とDenseCLを使用する。
ここでは、Multi-SSLはMoCov2、DenseCL、DetCoといった最近の手法を2.06%、VOC07分類では3.27%、そして1.19%、COCO検出では+2.83、+1.56、+1.61 APで上回っている。
コードは公開される予定だ。
関連論文リスト
- On the Discriminability of Self-Supervised Representation Learning [38.598160031349686]
自己教師付き学習(SSL)は、最近、下流の視覚タスクで大きな成功を収めた。
特に複雑な下流タスクにおいて、SSLと教師あり学習(SL)の間には、注目すべきギャップがまだ残っている。
論文 参考訳(メタデータ) (2024-07-18T14:18:03Z) - Performance Analysis of Speech Encoders for Low-Resource SLU and ASR in Tunisian Dialect [11.013934239276036]
自己教師付き学習(SSL)によって事前訓練された音声エンコーダは、様々な下流タスクにおいて顕著な性能を示した。
本稿では,低音源のチュニジア・アラビア方言の文脈におけるSSLアプローチの有効性を比較することで貢献する。
論文 参考訳(メタデータ) (2024-07-05T14:21:36Z) - Every Node is Different: Dynamically Fusing Self-Supervised Tasks for
Attributed Graph Clustering [59.45743537594695]
グラフクラスタリングのための動的Fusing Self-Supervised Learning (DyFSS)を提案する。
DyFSSは、ゲーティングネットワークから派生した異なる重みを使って、多様なSSLタスクから抽出された特徴を融合する。
実験では、DyFSSは最先端のマルチタスクSSLメソッドよりも精度が最大8.66%向上している。
論文 参考訳(メタデータ) (2024-01-12T14:24:10Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - What Can an Accent Identifier Learn? Probing Phonetic and Prosodic
Information in a Wav2vec2-based Accent Identification Model [30.88357561791563]
本研究は,自己監督学習モデルに符号化された音素・韻律情報の変化の理解と定量化に焦点を当てた。
その結果、AIDファインチューニングタスクは上位2層を操り、よりリッチな音素と韻律表現を学ぶことができた。
論文 参考訳(メタデータ) (2023-06-10T21:20:47Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation [27.857955394020475]
自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T20:09:15Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。