論文の概要: CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation
- arxiv url: http://arxiv.org/abs/2410.02271v1
- Date: Thu, 3 Oct 2024 07:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 07:36:05.189172
- Title: CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation
- Title(参考訳): CoLLAP: 音楽的時間構造を付加したコントラストロングフォーム言語-Audio Pretraining
- Authors: Junda Wu, Warren Li, Zachary Novack, Amit Namburi, Carol Chen, Julian McAuley,
- Abstract要約: Contrastive Long-form Language-Audio Pretraining (textbfCoLLAP)
入力音声(最大5分)と言語記述(250語)の認識窓を著しく拡張するコントラストロングフォーム言語事前学習(textbfCoLLAP)を提案する。
大規模なAudioSetトレーニングデータセットから51.3Kのオーディオテキストペアを収集し,平均オーディオ長が288秒に達する。
- 参考スコア(独自算出の注目度): 17.41880273107978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling temporal characteristics plays a significant role in the representation learning of audio waveform. We propose Contrastive Long-form Language-Audio Pretraining (\textbf{CoLLAP}) to significantly extend the perception window for both the input audio (up to 5 minutes) and the language descriptions (exceeding 250 words), while enabling contrastive learning across modalities and temporal dynamics. Leveraging recent Music-LLMs to generate long-form music captions for full-length songs, augmented with musical temporal structures, we collect 51.3K audio-text pairs derived from the large-scale AudioSet training dataset, where the average audio length reaches 288 seconds. We propose a novel contrastive learning architecture that fuses language representations with structured audio representations by segmenting each song into clips and extracting their embeddings. With an attention mechanism, we capture multimodal temporal correlations, allowing the model to automatically weigh and enhance the final fusion score for improved contrastive alignment. Finally, we develop two variants of the CoLLAP model with different types of backbone language models. Through comprehensive experiments on multiple long-form music-text retrieval datasets, we demonstrate consistent performance improvement in retrieval accuracy compared with baselines. We also show the pretrained CoLLAP models can be transferred to various music information retrieval tasks, with heterogeneous long-form multimodal contexts.
- Abstract(参考訳): 時間特性のモデル化は、音声波形の表現学習において重要な役割を果たす。
本稿では,入力音声(最大5分)と言語記述(250語)の認識窓を大きく拡張し,モーダル性や時間的ダイナミクスを横断するコントラスト学習を実現するために,コントラスト長文言語-監査事前学習(\textbf{CoLLAP})を提案する。
近年のMusic-LLMを用いてフル長楽曲の長文字幕を生成し,音楽時間構造を付加し,大規模なAudioSet学習データセットから51.3Kの音声テキストペアを収集し,平均音声長が288秒に達する。
本稿では,各曲をクリップに分割し,その埋め込みを抽出することにより,言語表現と構造化音声表現を融合する新しいコントラスト学習アーキテクチャを提案する。
注意機構により、マルチモーダル時間相関を捕捉し、モデルの自動重み付けを行い、最終的な融合スコアを向上し、コントラストアライメントを改善する。
最後に,異なる種類のバックボーン言語モデルを用いた2種類のCoLLAPモデルを開発した。
複数の長文音楽テキスト検索データセットの総合的な実験を通じて,ベースラインと比較して検索精度が一貫した性能向上を示した。
また,事前学習したCoLLAPモデルを,異種長モードのマルチモーダルコンテキストを用いて,様々な音楽情報検索タスクに転送可能であることを示す。
関連論文リスト
- C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Long-form music generation with latent diffusion [8.799402694043955]
時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。
我々は,音質と即時アライメントの指標に基づいて最先端の世代を入手し,主観的テストにより,コヒーレントな構造を持つ完全長の音楽を生成することを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T06:09:33Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。