論文の概要: Towards Explaining Expressive Qualities in Piano Recordings: Transfer of
Explanatory Features via Acoustic Domain Adaptation
- arxiv url: http://arxiv.org/abs/2102.13479v1
- Date: Fri, 26 Feb 2021 13:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 14:31:12.306837
- Title: Towards Explaining Expressive Qualities in Piano Recordings: Transfer of
Explanatory Features via Acoustic Domain Adaptation
- Title(参考訳): ピアノ録音における表現的品質の説明に向けて:音響領域適応による説明的特徴の伝達
- Authors: Shreyan Chowdhury and Gerhard Widmer
- Abstract要約: 本研究では,教師なし領域適応とレセプティブフィールド正規化ディープニューラルネットワークを併用することで,この領域への一般化を大幅に改善できることを示した。
ヒトリスナーが知覚し、描写したクラシックピアノ演奏の表現力をより良く予測し、説明できることを実証します。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion and expressivity in music have been topics of considerable interest
in the field of music information retrieval. In recent years, mid-level
perceptual features have been suggested as means to explain computational
predictions of musical emotion. We find that the diversity of musical styles
and genres in the available dataset for learning these features is not
sufficient for models to generalise well to specialised acoustic domains such
as solo piano music. In this work, we show that by utilising unsupervised
domain adaptation together with receptive-field regularised deep neural
networks, it is possible to significantly improve generalisation to this
domain. Additionally, we demonstrate that our domain-adapted models can better
predict and explain expressive qualities in classical piano performances, as
perceived and described by human listeners.
- Abstract(参考訳): 音楽における感情と表現性は、音楽情報検索の分野で大きな関心を集めている。
近年,音楽感情の計算的予測を説明する手段として,中程度の知覚的特徴が提案されている。
これらの特徴を学習するために利用可能なデータセット内の音楽スタイルとジャンルの多様性は、ソロピアノ音楽などの専門音響領域にモデルがうまく一般化するのに十分ではないことがわかります。
本研究では,教師なし領域適応とレセプティブフィールド正規化ディープニューラルネットワークを併用することで,この領域への一般化を大幅に改善できることを示した。
さらに,我々のドメイン適応モデルが,人間の聞き手によって認識され,説明されるように,クラシックピアノ演奏の表現的性質をより良く予測し,説明できることを実証する。
関連論文リスト
- Attention-guided Spectrogram Sequence Modeling with CNNs for Music Genre Classification [0.0]
注意に基づく時間的シグネチャモデリングを用いて音楽ジャンルを分類する革新的なモデルを提案する。
我々のアプローチは各作品の中でもっとも時間的に重要な瞬間を捉え、ジャンル識別のためのユニークな「シグナチャ」を作り上げる。
この研究は、技術的分類タスクと、ジャンルの微妙で人間的な経験のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-11-18T21:57:03Z) - A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - Joint Learning of Emotions in Music and Generalized Sounds [6.854732863866882]
マルチドメイン学習手法として複数のデータセットを提案する。
我々のアプローチは、一般化された音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。
異種モデルアーキテクチャを活用し,共通特徴空間で共同学習を行った。
論文 参考訳(メタデータ) (2024-08-04T12:19:03Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Musical Prosody-Driven Emotion Classification: Interpreting Vocalists
Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。
本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。
我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文 参考訳(メタデータ) (2021-06-04T15:40:19Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。