論文の概要: A Modulation Front-End for Music Audio Tagging
- arxiv url: http://arxiv.org/abs/2105.11836v1
- Date: Tue, 25 May 2021 11:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:39:26.470850
- Title: A Modulation Front-End for Music Audio Tagging
- Title(参考訳): 音楽音声タギングのための変調フロントエンド
- Authors: Cyrus Vahidi, Charalampos Saitis, Gy\"orgy Fazekas
- Abstract要約: 変調フィルタバンク表現は、知覚的に健全な特徴の抽出を容易にする可能性がある。
時間変調処理ブロックを組み込んだ音声表現学習のためのエンドツーエンド学習フロントエンドであるModNetとSincModNetについて検討する。
我々は,MagnaTagATuneデータセットを用いた最新の音楽タグ付けに対するモデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks have been extensively explored in the task of
automatic music tagging. The problem can be approached by using either
engineered time-frequency features or raw audio as input. Modulation filter
bank representations that have been actively researched as a basis for timbre
perception have the potential to facilitate the extraction of perceptually
salient features. We explore end-to-end learned front-ends for audio
representation learning, ModNet and SincModNet, that incorporate a temporal
modulation processing block. The structure is effectively analogous to a
modulation filter bank, where the FIR filter center frequencies are learned in
a data-driven manner. The expectation is that a perceptually motivated filter
bank can provide a useful representation for identifying music features. Our
experimental results provide a fully visualisable and interpretable front-end
temporal modulation decomposition of raw audio. We evaluate the performance of
our model against the state-of-the-art of music tagging on the MagnaTagATune
dataset. We analyse the impact on performance for particular tags when
time-frequency bands are subsampled by the modulation filters at a
progressively reduced rate. We demonstrate that modulation filtering provides
promising results for music tagging and feature representation, without using
extensive musical domain knowledge in the design of this front-end.
- Abstract(参考訳): 畳み込みニューラルネットワークは、自動音楽タグ付けのタスクで広く研究されてきた。
この問題は、エンジニアリングされた時間周波数特徴または生オーディオを入力として使用することで解決できる。
音色知覚の基礎として積極的に研究されている変調フィルタバンク表現は、知覚的に健全な特徴の抽出を容易にする可能性がある。
時間変調処理ブロックを組み込んだ音声表現学習のためのエンドツーエンド学習フロントエンドであるModNetとSincModNetについて検討する。
この構造は、FIRフィルタ中心周波数をデータ駆動方式で学習する変調フィルタバンクと効果的に類似している。
知覚的に動機づけられたフィルタバンクは、音楽の特徴を特定するのに有用な表現を提供する。
実験結果は,生音声の完全可視性と解釈可能なフロントエンド時間変調分解を提供する。
我々は,MagnaTagATuneデータセットを用いた最新の音楽タグ付けに対するモデルの性能評価を行った。
変調フィルタにより時間周波数帯域をサンプリングした場合の特定のタグの性能への影響を段階的に低減する。
このフロントエンドの設計において音楽領域の知識を多用することなく、変調フィルタリングが音楽タグ付けや特徴表現に有望な結果をもたらすことを示す。
関連論文リスト
- The Concatenator: A Bayesian Approach To Real Time Concatenative Musaicing [0.0]
音声誘導コンカテネータ合成のためのリアルタイムシステム「The Concatenator」を提案する。
粒子フィルタを用いて最適コーパス状態をリアルタイムで推定する。
我々のシステムは数時間のコーパスにスケールするが、これは膨大なオーディオデータ収集の時代において重要な特徴である。
論文 参考訳(メタデータ) (2024-11-07T01:52:46Z) - FilterNet: Harnessing Frequency Filters for Time Series Forecasting [34.83702192033196]
FilterNetは、時系列信号の特定の成分を選択的に通過または減衰させることにより、重要な情報的時間パターンを抽出するために、我々の提案した学習可能な周波数フィルタ上に構築されている。
2つのフィルタを備えることで、FilterNetは、時系列文学で広く採用されている線形およびアテンションマッピングを概ねサロゲートすることができる。
論文 参考訳(メタデータ) (2024-11-03T16:20:41Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - Content Adaptive Front End For Audio Signal Processing [2.8935588665357077]
音声信号処理のための学習可能なコンテンツ適応フロントエンドを提案する。
我々は、各音声信号を畳み込みフィルタのバンクに通し、それぞれが固定次元ベクトルを与える。
論文 参考訳(メタデータ) (2023-03-18T16:09:10Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Interpretable Acoustic Representation Learning on Breathing and Speech
Signals for COVID-19 Detection [37.01066509527848]
本稿では,新型コロナウイルス検出作業における音声信号の表現学習のアプローチについて述べる。
生音声サンプルは、コサイン変調ガウス関数としてパラメータ化される1次元畳み込みフィルタのバンクで処理される。
フィルタされた出力は、プールされ、ログ圧縮され、自己アテンションベースの関連重み付け機構で使用される。
論文 参考訳(メタデータ) (2022-06-27T15:20:51Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。