論文の概要: A Novel Audio Representation for Music Genre Identification in MIR
- arxiv url: http://arxiv.org/abs/2404.01058v1
- Date: Mon, 1 Apr 2024 11:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:35:23.973447
- Title: A Novel Audio Representation for Music Genre Identification in MIR
- Title(参考訳): MIRにおける音楽ジェネア識別のための新しい音響表現法
- Authors: Navin Kamuni, Mayank Jindal, Arpita Soni, Sukender Reddy Mallreddy, Sharath Chandra Macha,
- Abstract要約: 音楽情報検索タスクの場合、最も一般的な音声表現はMel Spectrogramsのような時間周波数ベースである。
本研究は、最も一般的なMIR下流タスクの1つとして、新しい形態の音声表現の可能性について検討する。
革新的な生成的音楽モデル、すなわちJukeboxのために、新しいオーディオ表現が作られた。
Jukeboxの音声表現の有効性は、ステート・オブ・ザ・アート(SOTA)とほぼ同等のデータセットとほぼ同じトランスフォーマー設計を用いて、メル分光器と比較される。
- 参考スコア(独自算出の注目度): 3.203495505471781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For Music Information Retrieval downstream tasks, the most common audio representation is time-frequency-based, such as Mel spectrograms. In order to identify musical genres, this study explores the possibilities of a new form of audio representation one of the most usual MIR downstream tasks. Therefore, to discretely encoding music using deep vector quantization; a novel audio representation was created for the innovative generative music model i.e. Jukebox. The effectiveness of Jukebox's audio representation is compared to Mel spectrograms using a dataset that is almost equivalent to State-of-the-Art (SOTA) and an almost same transformer design. The results of this study imply that, at least when the transformers are pretrained using a very modest dataset of 20k tracks, Jukebox's audio representation is not superior to Mel spectrograms. This could be explained by the fact that Jukebox's audio representation does not sufficiently take into account the peculiarities of human hearing perception. On the other hand, Mel spectrograms are specifically created with the human auditory sense in mind.
- Abstract(参考訳): 音楽情報検索タスクの場合、最も一般的な音声表現はMel Spectrogramsのような時間周波数ベースである。
本研究は、音楽ジャンルを特定するために、最も一般的なMIR下流タスクの1つとして、新しい形態の音声表現の可能性を探る。
そこで, 深部ベクトル量子化を用いて離散的に音楽の符号化を行う手法として, 革新的生成音楽モデルであるJukeboxのための新しい音声表現が開発された。
Jukeboxの音声表現の有効性は、ステート・オブ・ザ・アート(SOTA)とほぼ同等のデータセットとほぼ同じトランスフォーマー設計を用いて、メル分光器と比較される。
この研究の結果は、少なくとも変換器が20kトラックの非常に控えめなデータセットを使って事前訓練されている場合、Jukeboxの音声表現はメル分光器よりは優れていないことを示唆している。
これは、Jukeboxの音声表現が人間の聴覚の特異性を十分に考慮していないという事実によって説明できる。
一方,メルスペクトログラムは人間の聴覚感覚を念頭に特別に作成されている。
関連論文リスト
- The Rarity of Musical Audio Signals Within the Space of Possible Audio Generation [0.0]
ホワイトノイズ信号は任意の値の構成にアクセスできるが、統計学的に多くのサンプルが均一なスペクトル分布を呈する傾向がある。
ホワイトノイズが異なる期間にわたって音楽のような信号を生成する確率を解析する。
本研究の適用性は,音楽が貴重な希少性を持つことを示すだけでなく,音声信号空間の全体サイズに対する音楽の大きさの検証によって,新しい世代のアルゴリズム音楽システムに情報を提供する。
論文 参考訳(メタデータ) (2024-05-23T23:25:46Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。