論文の概要: Learning Music Sequence Representation from Text Supervision
- arxiv url: http://arxiv.org/abs/2305.19602v1
- Date: Wed, 31 May 2023 07:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:58:06.516839
- Title: Learning Music Sequence Representation from Text Supervision
- Title(参考訳): テキスト監督による音楽系列表現の学習
- Authors: Tianyu Chen, Yuan Xie, Shuai Zhang, Shaohan Huang, Haoyi Zhou, Jianxin
Li
- Abstract要約: 音楽表現学習は、その複雑な人間関係の概念が数値信号の列に含まれることで、非常に難しい。
本稿では,新しいテキスト・スーパービジョン事前学習手法,すなわちM.M.を提案する。
最先端のパフォーマンスを達成するためには、事前トレーニングデータの0.056%しか必要としない。
- 参考スコア(独自算出の注目度): 31.90882003611554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music representation learning is notoriously difficult for its complex
human-related concepts contained in the sequence of numerical signals. To
excavate better MUsic SEquence Representation from labeled audio, we propose a
novel text-supervision pre-training method, namely MUSER. MUSER adopts an
audio-spectrum-text tri-modal contrastive learning framework, where the text
input could be any form of meta-data with the help of text templates while the
spectrum is derived from an audio sequence. Our experiments reveal that MUSER
could be more flexibly adapted to downstream tasks compared with the current
data-hungry pre-training method, and it only requires 0.056% of pre-training
data to achieve the state-of-the-art performance.
- Abstract(参考訳): 音楽表現学習は、数的信号の列に含まれる複雑な人間関係の概念によって悪名高い。
ラベル付き音声からのMUSic Sequence Representationを改善するために,MUSERという新たなテキストスーパービジョン事前学習手法を提案する。
muserは、テキスト入力がテキストテンプレートの助けを借りて任意の形式のメタデータになり、スペクトルはオーディオシーケンスから派生する、オーディオ-スペクトラム-テキストの3-モーダルコントラスト学習フレームワークを採用している。
実験の結果、museerは現在のデータ・ハングリー事前学習法と比較して、下流タスクに柔軟に対応できることが明らかとなり、最新性能を達成するためには事前学習データの0.056%しか必要としなかった。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Text Conditioned Symbolic Drumbeat Generation using Latent Diffusion Models [0.0]
本研究では,ラテント拡散モデル(LDM)を用いたドラムビート生成のためのテキスト条件付き手法を提案する。
マルチモーダルネットワーク内のコントラスト学習を通じてテキストとドラムのエンコーダを事前学習することにより,テキストと音楽のモダリティを密に調整する。
生成したドラムビートは新規で、即興のテキストに順応し、人間の音楽家によるものと同等の品質を示す。
論文 参考訳(メタデータ) (2024-08-05T13:23:05Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Semi-supervised Text-based Person Search [47.14739994781334]
既存の手法は、完全教師付き学習において十分な性能を達成するために、大量の注釈付き画像テキストデータに依存している。
本稿では,半教師付きTBPSの世代別検索に基づく2段階基本解を提案する。
本稿では,ノイズの多いデータを扱うための検索モデルの能力を高めるためのノイズロバスト検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-28T07:47:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Self-supervised Context-aware Style Representation for Expressive Speech
Synthesis [23.460258571431414]
本稿では,平文からスタイル表現を自己教師型で学習するための新しいフレームワークを提案する。
感情のレキシコンを活用し、対照的な学習と深いクラスタリングを使用する。
本手法は,音声ブック音声におけるドメイン内およびドメイン外テストセットの主観的評価に基づいて,改善された結果を実現する。
論文 参考訳(メタデータ) (2022-06-25T05:29:48Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。