論文の概要: RECAP: Retrieval Augmented Music Captioner
- arxiv url: http://arxiv.org/abs/2212.10901v1
- Date: Wed, 21 Dec 2022 10:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:39:26.273854
- Title: RECAP: Retrieval Augmented Music Captioner
- Title(参考訳): recap: 拡張音楽キャプションの検索
- Authors: Zihao He, Weituo Hao, Xuchen Song
- Abstract要約: コントラスト学習による検索強化によるマルチモーダルアライメントの学習を提案する。
音声と歌詞の対応を学習することで、モデルはより優れたモーダルな注意重みを学習し、高品質なキャプション語を生成する。
- 参考スコア(独自算出の注目度): 12.358680494140565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the prevalence of stream media platforms serving music search and
recommendation, interpreting music by understanding audio and lyrics
interactively has become an important and challenging task. However, many
previous works focus on refining individual components of encoder-decoder
architecture mapping music to caption tokens, ignoring the potential usage of
audio and lyrics correspondence. In this paper, we propose to explicitly learn
the multi-modal alignment with retrieval augmentation by contrastive learning.
By learning audio-lyrics correspondence, the model is guided to learn better
cross-modal attention weights, thus generating high-quality caption words. We
provide both theoretical and empirical results that demonstrate the advantage
of the proposed method.
- Abstract(参考訳): 音楽検索とレコメンデーションを提供するストリームメディアプラットフォームの普及に伴い、音声と歌詞を対話的に理解することで音楽の解釈が重要かつ困難な課題となっている。
しかし、以前の多くの作品は、音楽とキャプショントークンをマッピングするエンコーダ・デコーダ・アーキテクチャの個々のコンポーネントを洗練することに集中しており、音声と歌詞の対応の潜在的な使用を無視している。
本稿では,コントラスト学習による検索強化によるマルチモーダルアライメントを明示的に学習することを提案する。
音声と歌詞の対応を学習することで、モデルはより優れたモーダルな注意重みを学習し、高品質なキャプション語を生成する。
提案手法の利点を示す理論的および実証的な結果の両方を提供する。
関連論文リスト
- MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - MULTIMODAL ANALYSIS: Informed content estimation and audio source
separation [0.0]
歌声は、オーディオ信号とテキスト情報を独自の方法で直接接続します。
本研究は、音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に焦点を当てた。
論文 参考訳(メタデータ) (2021-04-27T15:45:21Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。