論文の概要: Estimating Musical Surprisal in Audio
- arxiv url: http://arxiv.org/abs/2501.07474v1
- Date: Mon, 13 Jan 2025 16:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:21:30.676546
- Title: Estimating Musical Surprisal in Audio
- Title(参考訳): オーディオにおける音素推定
- Authors: Mathias Rose Bjare, Giorgia Cantisani, Stefan Lattner, Gerhard Widmer,
- Abstract要約: シンボリック・ミュージックにおけるサブプライムのプロキシとしての自己回帰モデルからのワンステップ予測の情報コンテンツ(IC)
我々は、事前訓練されたオートエンコーダネットワークの圧縮遅延音声表現を予測するために、自己回帰変換モデルを訓練する。
音声・音楽の特徴とICの関係について検討し,音節の変動や声の大きさと相関し,低音域,不協和性,リズムの複雑度,および音声・音楽の特徴に関連するオンセット密度を推定した。
- 参考スコア(独自算出の注目度): 4.056099795258358
- License:
- Abstract: In modeling musical surprisal expectancy with computational methods, it has been proposed to use the information content (IC) of one-step predictions from an autoregressive model as a proxy for surprisal in symbolic music. With an appropriately chosen model, the IC of musical events has been shown to correlate with human perception of surprise and complexity aspects, including tonal and rhythmic complexity. This work investigates whether an analogous methodology can be applied to music audio. We train an autoregressive Transformer model to predict compressed latent audio representations of a pretrained autoencoder network. We verify learning effects by estimating the decrease in IC with repetitions. We investigate the mean IC of musical segment types (e.g., A or B) and find that segment types appearing later in a piece have a higher IC than earlier ones on average. We investigate the IC's relation to audio and musical features and find it correlated with timbral variations and loudness and, to a lesser extent, dissonance, rhythmic complexity, and onset density related to audio and musical features. Finally, we investigate if the IC can predict EEG responses to songs and thus model humans' surprisal in music. We provide code for our method on github.com/sonycslparis/audioic.
- Abstract(参考訳): 音楽の先入観を計算手法でモデル化する際、自己回帰モデルからの一段階予測の情報内容(IC)を記号音楽における先入観の代用として用いることが提案されている。
適切に選択されたモデルにより、音楽イベントのICは、声調やリズムの複雑さを含む、驚きと複雑さの人間の知覚と相関することが示されている。
本研究は,音楽聴取に類似手法を適用できるかどうかを考察する。
我々は、事前訓練されたオートエンコーダネットワークの圧縮遅延音声表現を予測するために、自己回帰変換モデルを訓練する。
繰り返しのICの減少を推定し,学習効果を検証する。
楽曲のセグメントタイプの平均IC(eg,A,B)を調べた結果,楽曲の後半に現れるセグメントタイプは,平均よりもICが高いことがわかった。
音声・音楽の特徴とICの関係について検討し,音節の変動や声の大きさと相関し,低音域,不協和性,リズムの複雑度,および音声・音楽の特徴に関連するオンセット密度を推定した。
最後に,ICが楽曲に対する脳波の応答を予測できるかどうかを検討した。
我々はgithub.com/sonycslparis/audioicでメソッドのコードを提供します。
関連論文リスト
- Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。
私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。
本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文 参考訳(メタデータ) (2025-02-10T17:41:57Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Controlling Surprisal in Music Generation via Information Content Curve Matching [3.5570874721859016]
そこで本研究では,シーケンスモデルを用いた音楽生成における副次的制御手法を提案する。
Instantaneous Information Content (IIC) と呼ばれるメトリクスを定義する。
IICは、知覚された音楽的前提のプロキシ機能として機能する。
論文 参考訳(メタデータ) (2024-08-12T09:21:41Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Relating Human Perception of Musicality to Prediction in a Predictive
Coding Model [0.8062120534124607]
人間の音楽知覚をモデル化するための予測符号化にインスパイアされたニューラルネットワークの利用について検討する。
このネットワークは階層視覚野における反復的相互作用の計算神経科学理論に基づいて開発された。
このネットワークを用いて階層的な聴覚システムをモデル化し、ランダムなピッチ列の楽しさに関して、人間と同じような選択をするかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-29T12:20:01Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。