論文の概要: Codified audio language modeling learns useful representations for music
information retrieval
- arxiv url: http://arxiv.org/abs/2107.05677v1
- Date: Mon, 12 Jul 2021 18:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 04:08:25.372166
- Title: Codified audio language modeling learns useful representations for music
information retrieval
- Title(参考訳): 符号化音声言語モデリングは音楽情報検索に有用な表現を学習する
- Authors: Rodrigo Castellon and Chris Donahue and Percy Liang
- Abstract要約: 符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
- 参考スコア(独自算出の注目度): 77.63657430536593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that language models pre-trained on codified
(discretely-encoded) music audio learn representations that are useful for
downstream MIR tasks. Specifically, we explore representations from Jukebox
(Dhariwal et al. 2020): a music generation system containing a language model
trained on codified audio from 1M songs. To determine if Jukebox's
representations contain useful information for MIR, we use them as input
features to train shallow models on several MIR tasks. Relative to
representations from conventional MIR models which are pre-trained on tagging,
we find that using representations from Jukebox as input features yields 30%
stronger performance on average across four MIR tasks: tagging, genre
classification, emotion recognition, and key detection. For key detection, we
observe that representations from Jukebox are considerably stronger than those
from models pre-trained on tagging, suggesting that pre-training via codified
audio language modeling may address blind spots in conventional approaches. We
interpret the strength of Jukebox's representations as evidence that modeling
audio instead of tags provides richer representations for MIR.
- Abstract(参考訳): 我々は、下流MIRタスクに有用な符号化された(離散符号化された)オーディオ学習表現に基づいて事前学習された言語モデルを示す。
具体的には,Jukebox (Dhariwal et al。
2020年 - 100万曲の音声を符号化した言語モデルを含む音楽生成システム。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
タグ付けを前提とした従来のmirモデルの表現と比較すると,jukeboxの表現を入力機能として使用すると,タグ付け,ジャンル分類,感情認識,キー検出という4つのmirタスクの平均的なパフォーマンスが30%向上することがわかった。
キー検出のために、jukeboxからの表現がタグづけの事前学習モデルよりもかなり強いことを観察し、コーディネートされたオーディオ言語モデリングによる事前学習が、従来のアプローチで盲点に対処する可能性があることを示唆する。
我々は、Jukeboxの表現の強さを、タグの代わりにオーディオをモデル化することで、よりリッチな表現をMIRに提供できることの証拠として解釈する。
関連論文リスト
- A Novel Audio Representation for Music Genre Identification in MIR [3.203495505471781]
音楽情報検索タスクの場合、最も一般的な音声表現はMel Spectrogramsのような時間周波数ベースである。
本研究は、最も一般的なMIR下流タスクの1つとして、新しい形態の音声表現の可能性について検討する。
革新的な生成的音楽モデル、すなわちJukeboxのために、新しいオーディオ表現が作られた。
Jukeboxの音声表現の有効性は、ステート・オブ・ザ・アート(SOTA)とほぼ同等のデータセットとほぼ同じトランスフォーマー設計を用いて、メル分光器と比較される。
論文 参考訳(メタデータ) (2024-04-01T11:40:09Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。