論文の概要: ALCAP: Alignment-Augmented Music Captioner
- arxiv url: http://arxiv.org/abs/2212.10901v2
- Date: Sat, 6 May 2023 05:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:27:24.835298
- Title: ALCAP: Alignment-Augmented Music Captioner
- Title(参考訳): ALCAP:アライメント強化音楽キャプタ
- Authors: Zihao He, Weituo Hao, Wei-Tsung Lu, Changyou Chen, Kristina Lerman,
Xuchen Song
- Abstract要約: コントラスト学習を通じて,マルチモーダルアライメントを明示的に学習することを提案する。
音声と歌詞の対応を学習することで、モデルはより優れた相互整合性を学び、高品質なキャプションを生成する。
- 参考スコア(独自算出の注目度): 44.74793298380122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Growing popularity of streaming media platforms for music search and
recommendations has led to a need for novel methods for interpreting music that
take into account both lyrics and audio. However, many previous works focus on
refining individual components of encoder-decoder architecture that maps music
to caption tokens, ignoring the potential benefits of correspondence between
audio and lyrics. In this paper, we propose to explicitly learn the multimodal
alignment through contrastive learning. By learning audio-lyrics
correspondence, the model is guided to learn better cross-modal consistency,
thus generating high-quality captions. We provide both theoretical and
empirical results demonstrating the advantage of the proposed method, and
achieve new state-of-the-art on two music captioning datasets.
- Abstract(参考訳): 音楽検索とレコメンデーションのためのストリーミングメディアプラットフォームの人気が高まり、歌詞とオーディオの両方を考慮した音楽解釈のための新しい方法が求められている。
しかし、以前の多くの研究は、音声と歌詞の対応の潜在的な利点を無視して、音楽とキャプショントークンをマッピングするエンコーダ・デコーダアーキテクチャの個々のコンポーネントの精製に重点を置いていた。
本稿では,コントラスト学習によるマルチモーダルアライメントを明示的に学習することを提案する。
音声と歌詞の対応を学習することで、モデルはより優れた相互整合性を学び、高品質なキャプションを生成する。
提案手法の利点を実証した理論的および実証的な結果と、2つの音楽キャプションデータセットの新たな最先端化を実現する。
関連論文リスト
- MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - MULTIMODAL ANALYSIS: Informed content estimation and audio source
separation [0.0]
歌声は、オーディオ信号とテキスト情報を独自の方法で直接接続します。
本研究は、音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に焦点を当てた。
論文 参考訳(メタデータ) (2021-04-27T15:45:21Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。