論文の概要: Do sound event representations generalize to other audio tasks? A case
study in audio transfer learning
- arxiv url: http://arxiv.org/abs/2106.11335v1
- Date: Mon, 21 Jun 2021 18:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:44:28.872942
- Title: Do sound event representations generalize to other audio tasks? A case
study in audio transfer learning
- Title(参考訳): 音声イベント表現は他の音声タスクに一般化するのか?
音声伝達学習における事例研究
- Authors: Anurag Kumar, Yun Wang, Vamsi Krishna Ithapu, Christian Fuegen
- Abstract要約: 本稿では,大規模音響イベント検出データセットを用いて学習したニューラルネットワークから得られた音声表現の伝達学習能力について検討する。
このような単純な線形移動は、下流のタスクで高い性能を達成するのに十分強力であることを示す。
- 参考スコア(独自算出の注目度): 20.572846660950812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning is critical for efficient information transfer across
multiple related learning problems. A simple, yet effective transfer learning
approach utilizes deep neural networks trained on a large-scale task for
feature extraction. Such representations are then used to learn related
downstream tasks. In this paper, we investigate transfer learning capacity of
audio representations obtained from neural networks trained on a large-scale
sound event detection dataset. We build and evaluate these representations
across a wide range of other audio tasks, via a simple linear classifier
transfer mechanism. We show that such simple linear transfer is already
powerful enough to achieve high performance on the downstream tasks. We also
provide insights into the attributes of sound event representations that enable
such efficient information transfer.
- Abstract(参考訳): 転送学習は、複数の関連する学習問題を横断する効率的な情報伝達に不可欠である。
シンプルで効果的なトランスファーラーニングアプローチは、機能抽出のために大規模タスクでトレーニングされたディープニューラルネットワークを利用する。
このような表現は、下流のタスクを学習するために使われる。
本稿では,大規模音響イベント検出データセット上で学習したニューラルネットワークから得られた音声表現の転送学習能力について検討する。
我々は,これらの表現を,単純な線形分類器転送機構を用いて,他の幅広い音声タスクに対して構築し,評価する。
このような単純な線形転送は、下流タスクで高い性能を達成するのに十分強力であることを示す。
また、このような効率的な情報伝達を可能にする音響イベント表現の属性に関する洞察を提供する。
関連論文リスト
- Leveraging Visual Supervision for Array-based Active Speaker Detection
and Localization [3.836171323110284]
簡単な音声畳み込みリカレントニューラルネットワークにより,水平型アクティブ話者検出と局所化を同時に行うことができることを示す。
本稿では,生徒の学習アプローチを取り入れた,自己指導型学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T16:53:04Z) - Evaluating the structure of cognitive tasks with transfer learning [67.22168759751541]
本研究では,脳波復号処理における深層学習表現の伝達可能性について検討した。
最近リリースされた2つのEEGデータセット上で、最先端デコードモデルを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-07-28T14:51:09Z) - Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers [6.002503434201551]
大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T08:39:12Z) - An Exploration of Data Efficiency in Intra-Dataset Task Transfer for
Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。
非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文 参考訳(メタデータ) (2022-10-21T04:36:46Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - What is being transferred in transfer learning? [51.6991244438545]
事前訓練した重量からトレーニングを行うと、モデルは損失景観の同じ流域に留まることを示す。
事前学習した重みからトレーニングする場合、モデルは損失ランドスケープの同じ流域に留まり、そのようなモデルの異なるインスタンスは特徴空間と類似しており、パラメータ空間は近接している。
論文 参考訳(メタデータ) (2020-08-26T17:23:40Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Anti-Transfer Learning for Task Invariance in Convolutional Neural
Networks for Speech Processing [6.376852004129252]
本稿では,畳み込みニューラルネットワークを用いた音声処理におけるアンチトランスファー学習の概念を紹介する。
提案手法は, 実際にタスクに対する意図的不変性や, 対象タスクに対してより適切な機能に導かれることを示す。
論文 参考訳(メタデータ) (2020-06-11T15:03:29Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。