論文の概要: MusCaps: Generating Captions for Music Audio
- arxiv url: http://arxiv.org/abs/2104.11984v1
- Date: Sat, 24 Apr 2021 16:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:54:22.382910
- Title: MusCaps: Generating Captions for Music Audio
- Title(参考訳): MusCaps:音楽オーディオのキャプション生成
- Authors: Ilaria Manco, Emmanouil Benetos, Elio Quinton, Gyorgy Fazekas
- Abstract要約: 時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
- 参考スコア(独自算出の注目度): 14.335950077921435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-based music information retrieval has seen rapid progress with the
adoption of deep learning. Current approaches to high-level music description
typically make use of classification models, such as in auto-tagging or genre
and mood classification. In this work, we propose to address music description
via audio captioning, defined as the task of generating a natural language
description of music audio content in a human-like manner. To this end, we
present the first music audio captioning model, MusCaps, consisting of an
encoder-decoder with temporal attention. Our method combines convolutional and
recurrent neural network architectures to jointly process audio-text inputs
through a multimodal encoder and leverages pre-training on audio data to obtain
representations that effectively capture and summarise musical features in the
input. Evaluation of the generated captions through automatic metrics shows
that our method outperforms a baseline designed for non-music audio captioning.
Through an ablation study, we unveil that this performance boost can be mainly
attributed to pre-training of the audio encoder, while other design choices -
modality fusion, decoding strategy and the use of attention - contribute only
marginally. Our model represents a shift away from classification-based music
description and combines tasks requiring both auditory and linguistic
understanding to bridge the semantic gap in music information retrieval.
- Abstract(参考訳): コンテンツに基づく音楽情報検索は,ディープラーニングの導入によって急速に進歩している。
ハイレベル音楽記述への現在のアプローチは、オートタグやジャンル、ムード分類などの分類モデルを利用するのが一般的である。
本研究では,人間的な方法で音声コンテンツの自然言語記述を生成するタスクとして定義された音声キャプションによる音楽記述に対処することを提案する。
そこで本研究では,テンポラルアテンションを持つエンコーダデコーダからなる最初の音楽オーディオキャプションモデルMusCapsを提案する。
提案手法は畳み込みと繰り返しのニューラルネットワークアーキテクチャを組み合わせることで,マルチモーダルエンコーダを通じて音声テキスト入力を共同処理し,音声データの事前学習を利用して,入力中の音楽的特徴を効果的に捉え,要約する表現を得る。
自動計測によるキャプションの評価は,非音楽音声キャプションのためのベースラインよりも優れていることを示す。
アブレーション研究を通じて、この性能向上は、主にオーディオエンコーダの事前学習によるものであり、他の設計選択モダリティ融合、復号化戦略、注意力の利用は、わずかに寄与する。
我々のモデルは、分類に基づく音楽記述から脱却し、音楽情報検索における意味的ギャップを埋めるために、聴覚と言語の両方の理解を必要とするタスクを組み合わせる。
関連論文リスト
- Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。