論文の概要: Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio
and Tags
- arxiv url: http://arxiv.org/abs/2010.14171v1
- Date: Tue, 27 Oct 2020 10:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:48:07.883293
- Title: Learning Contextual Tag Embeddings for Cross-Modal Alignment of Audio
and Tags
- Title(参考訳): 音声とタグの相互アライメントのためのコンテキストタグ埋め込み学習
- Authors: Xavier Favory, Konstantinos Drossos, Tuomas Virtanen, Xavier Serra
- Abstract要約: 本稿では,音声オートエンコーダ(AAE),一般単語埋め込みモデル(WEM),マルチヘッド自己認識機構を用いて音声表現を学習する手法を提案する。
以上の結果から,タグベースのネットワークにおいて,複数頭部の自己アテンションを多面的に利用することで,より優れた学習音声表現を誘導できることが示唆された。
- 参考スコア(独自算出の注目度): 32.456824945999465
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised audio representation learning offers an attractive
alternative for obtaining generic audio embeddings, capable to be employed into
various downstream tasks. Published approaches that consider both audio and
words/tags associated with audio do not employ text processing models that are
capable to generalize to tags unknown during training. In this work we propose
a method for learning audio representations using an audio autoencoder (AAE), a
general word embeddings model (WEM), and a multi-head self-attention (MHA)
mechanism. MHA attends on the output of the WEM, providing a contextualized
representation of the tags associated with the audio, and we align the output
of MHA with the output of the encoder of AAE using a contrastive loss. We
jointly optimize AAE and MHA and we evaluate the audio representations (i.e.
the output of the encoder of AAE) by utilizing them in three different
downstream tasks, namely sound, music genre, and music instrument
classification. Our results show that employing multi-head self-attention with
multiple heads in the tag-based network can induce better learned audio
representations.
- Abstract(参考訳): 自己教師型音声表現学習は、様々な下流タスクに使用できる汎用的なオーディオ埋め込みを得るための魅力的な代替手段を提供する。
音声と単語/タグの両方を考慮に入れるアプローチは、トレーニング中に未知のタグに一般化できるテキスト処理モデルを採用していない。
本研究では,音声オートエンコーダ(AAE),一般単語埋め込みモデル(WEM),マルチヘッド自己認識機構(MHA)を用いて音声表現を学習する手法を提案する。
MHAはWEMの出力に参画し、音声に関連付けられたタグの文脈的表現を提供し、MHAの出力とAAEのエンコーダの出力とをコントラスト的損失を用いて整合させる。
我々はAAEとMHAを共同で最適化し、オーディオ表現(AAEのエンコーダの出力)を、音、音楽ジャンル、楽器分類の3つの下流タスクで活用することで評価する。
以上の結果から,タグベースのネットワークにおいて,複数頭部の自己アテンションを用いることで,より優れた学習音声表現を導き出すことができた。
関連論文リスト
- EnCodecMAE: Leveraging neural codecs for universal audio representation learning [16.590638305972632]
我々は、音声信号のマスキング表現を提案し、マスクされたセグメントを再構築するためにMAEを訓練する。
本研究では,EnCodecMAEと呼ぶこのアプローチを,音声,音楽,環境音を含む幅広いタスクで評価する。
論文 参考訳(メタデータ) (2023-09-14T02:21:53Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。