論文の概要: Audiovisual transfer learning for audio tagging and sound event
detection
- arxiv url: http://arxiv.org/abs/2106.05408v1
- Date: Wed, 9 Jun 2021 21:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:03:04.631493
- Title: Audiovisual transfer learning for audio tagging and sound event
detection
- Title(参考訳): 音声タグと音響イベント検出のための視聴覚伝達学習
- Authors: Wim Boes, Hugo Van hamme
- Abstract要約: 本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
- 参考スコア(独自算出の注目度): 21.574781022415372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the merit of transfer learning for two sound recognition problems,
i.e., audio tagging and sound event detection. Employing feature fusion, we
adapt a baseline system utilizing only spectral acoustic inputs to also make
use of pretrained auditory and visual features, extracted from networks built
for different tasks and trained with external data. We perform experiments with
these modified models on an audiovisual multi-label data set, of which the
training partition contains a large number of unlabeled samples and a smaller
amount of clips with weak annotations, indicating the clip-level presence of 10
sound categories without specifying the temporal boundaries of the active
auditory events. For clip-based audio tagging, this transfer learning method
grants marked improvements. Addition of the visual modality on top of audio
also proves to be advantageous in this context. When it comes to generating
transcriptions of audio recordings, the benefit of pretrained features depends
on the requested temporal resolution: for coarse-grained sound event detection,
their utility remains notable. But when more fine-grained predictions are
required, performance gains are strongly reduced due to a mismatch between the
problem at hand and the goals of the models from which the pretrained vectors
were obtained.
- Abstract(参考訳): 本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
特徴融合を用いて, スペクトル音響入力のみを用いたベースラインシステムを適用し, 異なるタスク用に構築され, 外部データでトレーニングされたネットワークから抽出された聴覚・視覚特徴を活用した。
我々は,これらの修正モデルを用いて,多数のラベルなしサンプルと少ないアノテーション付きクリップを含む視聴覚多ラベルデータセット上で実験を行い,アクティブな聴覚イベントの時間的境界を指定せずに10種類の音響カテゴリのクリップレベルの存在を示す。
クリップベースのオーディオタグ付けでは、この変換学習法は顕著な改善をもたらす。
オーディオの上に視覚的モダリティを加えることは、この文脈で有利であることを示す。
音声録音の書き起こしに関して、事前訓練された特徴の利点は、要求された時間分解能に依存する。
しかし、よりきめ細かい予測が必要となると、事前学習されたベクトルが得られたモデルの目標と問題のミスマッチにより、パフォーマンス向上が強く低下する。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - An investigation on selecting audio pre-trained models for audio
captioning [5.837881923712393]
事前訓練されたモデルは、複雑さが高いため、オーディオキャプションで広く使用されている。
包括的システムが再訓練されない限り、事前訓練されたモデルが音声キャプションシステムにどの程度貢献するかを判断することは困難である。
本稿では,抽出音声特徴量と音声キャプション性能の相関関係について,事前学習した一連のモデルについて検討する。
論文 参考訳(メタデータ) (2022-08-12T06:14:20Z) - Improving Polyphonic Sound Event Detection on Multichannel Recordings
with the S{\o}rensen-Dice Coefficient Loss and Transfer Learning [15.088901748728391]
ディース損失を訓練したポリフォニック音響イベント検出システムは、クロスエントロピー損失を訓練した者よりも一貫して優れていた。
我々は、転送学習と異なるデータ拡張手法を適切に組み合わせることで、さらなるパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2021-07-22T06:14:23Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z) - Unsupervised Discriminative Learning of Sounds for Audio Event
Classification [43.81789898864507]
ネットワークベースの音声イベント分類は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。
我々は,教師なしモデルの事前トレーニングを音声データのみに限定し,ImageNetの事前トレーニングによるオンパーパフォーマンスを実現する,高速で効果的な代替手段を示す。
論文 参考訳(メタデータ) (2021-05-19T17:42:03Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。