Fugu-MT 論文翻訳(概要): ALCAP: Alignment-Augmented Music Captioner

論文の概要: ALCAP: Alignment-Augmented Music Captioner

arxiv url: http://arxiv.org/abs/2212.10901v2
Date: Sat, 6 May 2023 05:20:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 23:27:24.835298
Title: ALCAP: Alignment-Augmented Music Captioner
Title（参考訳）: ALCAP:アライメント強化音楽キャプタ
Authors: Zihao He, Weituo Hao, Wei-Tsung Lu, Changyou Chen, Kristina Lerman, Xuchen Song
Abstract要約: コントラスト学習を通じて,マルチモーダルアライメントを明示的に学習することを提案する。音声と歌詞の対応を学習することで、モデルはより優れた相互整合性を学び、高品質なキャプションを生成する。
参考スコア（独自算出の注目度）: 44.74793298380122
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Growing popularity of streaming media platforms for music search and recommendations has led to a need for novel methods for interpreting music that take into account both lyrics and audio. However, many previous works focus on refining individual components of encoder-decoder architecture that maps music to caption tokens, ignoring the potential benefits of correspondence between audio and lyrics. In this paper, we propose to explicitly learn the multimodal alignment through contrastive learning. By learning audio-lyrics correspondence, the model is guided to learn better cross-modal consistency, thus generating high-quality captions. We provide both theoretical and empirical results demonstrating the advantage of the proposed method, and achieve new state-of-the-art on two music captioning datasets.
Abstract（参考訳）: 音楽検索とレコメンデーションのためのストリーミングメディアプラットフォームの人気が高まり、歌詞とオーディオの両方を考慮した音楽解釈のための新しい方法が求められている。しかし、以前の多くの研究は、音声と歌詞の対応の潜在的な利点を無視して、音楽とキャプショントークンをマッピングするエンコーダ・デコーダアーキテクチャの個々のコンポーネントの精製に重点を置いていた。本稿では,コントラスト学習によるマルチモーダルアライメントを明示的に学習することを提案する。音声と歌詞の対応を学習することで、モデルはより優れた相互整合性を学び、高品質なキャプションを生成する。提案手法の利点を実証した理論的および実証的な結果と、2つの音楽キャプションデータセットの新たな最先端化を実現する。

関連論文リスト

Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning [10.558648773612191]
本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
論文参考訳（メタデータ） (2025-05-29T09:50:07Z)
Aligned Music Notation and Lyrics Transcription [8.411893399638046]
本稿では,Aligned Music Notation and Lyrics Transcription (AMNLT) の課題を紹介する。音楽記号、歌詞、それらの同期を共同で検討することで、声楽の完全な書き起こしに対処する。我々は、音楽と歌詞を別々に扱う従来の分詞法から、新しいエンドツーエンドソリューションまで、この課題に対処するための様々なアプローチを評価する。
論文参考訳（メタデータ） (2024-12-05T14:50:11Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。 2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。 3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-28T22:45:40Z)
Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文参考訳（メタデータ） (2022-08-25T16:55:15Z)
Contrastive Learning with Positive-Negative Frame Mask for Music Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文参考訳（メタデータ） (2022-03-17T07:11:42Z)
Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文参考訳（メタデータ） (2021-12-08T10:30:52Z)
MULTIMODAL ANALYSIS: Informed content estimation and audio source separation [0.0]
歌声は、オーディオ信号とテキスト情報を独自の方法で直接接続します。本研究は、音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に焦点を当てた。
論文参考訳（メタデータ） (2021-04-27T15:45:21Z)
MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文参考訳（メタデータ） (2021-04-24T16:34:47Z)
Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。 3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文参考訳（メタデータ） (2021-04-22T09:31:20Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。