論文の概要: COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations
- arxiv url: http://arxiv.org/abs/2006.08386v2
- Date: Wed, 8 Jul 2020 08:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:51:11.607125
- Title: COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations
- Title(参考訳): COALA: セマンティックにリッチな音声表現を学習するための協調型オートエンコーダ
- Authors: Xavier Favory, Konstantinos Drossos, Tuomas Virtanen and Xavier Serra
- Abstract要約: 本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
- 参考スコア(独自算出の注目度): 32.456824945999465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio representation learning based on deep neural networks (DNNs) emerged as
an alternative approach to hand-crafted features. For achieving high
performance, DNNs often need a large amount of annotated data which can be
difficult and costly to obtain. In this paper, we propose a method for learning
audio representations, aligning the learned latent representations of audio and
associated tags. Aligning is done by maximizing the agreement of the latent
representations of audio and tags, using a contrastive loss. The result is an
audio embedding model which reflects acoustic and semantic characteristics of
sounds. We evaluate the quality of our embedding model, measuring its
performance as a feature extractor on three different tasks (namely, sound
event recognition, and music genre and musical instrument classification), and
investigate what type of characteristics the model captures. Our results are
promising, sometimes in par with the state-of-the-art in the considered tasks
and the embeddings produced with our method are well correlated with some
acoustic descriptors.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)に基づく音声表現学習は、手作り機能に代わるアプローチとして登場した。
高性能を実現するために、DNNは大量の注釈付きデータを必要とすることが多く、入手が困難でコストがかかる。
本稿では,学習した音声および関連タグの潜在表現を整列させて,音声表現を学習する手法を提案する。
調整は、音声とタグの潜在表現の一致を最大化し、対照的な損失を用いて行う。
その結果,音の音響的・意味的特性を反映した音響埋め込みモデルが得られた。
組込みモデルの品質を評価し,3つの異なるタスク(音のイベント認識,音楽ジャンル,楽器分類)で特徴抽出器としての性能を測定し,そのモデルがどのような特徴を捉えているかを検討する。
提案手法により得られた埋め込みは,いくつかの音響ディスクリプタとよく相関している。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio
and Tags [32.456824945999465]
本稿では,音声オートエンコーダ(AAE),一般単語埋め込みモデル(WEM),マルチヘッド自己認識機構を用いて音声表現を学習する手法を提案する。
以上の結果から,タグベースのネットワークにおいて,複数頭部の自己アテンションを多面的に利用することで,より優れた学習音声表現を誘導できることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:13:17Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。