論文の概要: Controlling Surprisal in Music Generation via Information Content Curve Matching
- arxiv url: http://arxiv.org/abs/2408.06022v1
- Date: Mon, 12 Aug 2024 09:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 13:35:58.266611
- Title: Controlling Surprisal in Music Generation via Information Content Curve Matching
- Title(参考訳): 情報コンテンツ曲線マッチングによる音楽生成の素性制御
- Authors: Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer,
- Abstract要約: そこで本研究では,シーケンスモデルを用いた音楽生成における副次的制御手法を提案する。
Instantaneous Information Content (IIC) と呼ばれるメトリクスを定義する。
IICは、知覚された音楽的前提のプロキシ機能として機能する。
- 参考スコア(独自算出の注目度): 3.5570874721859016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the quality and public interest in music generation systems have grown, encouraging research into various ways to control these systems. We propose a novel method for controlling surprisal in music generation using sequence models. To achieve this goal, we define a metric called Instantaneous Information Content (IIC). The IIC serves as a proxy function for the perceived musical surprisal (as estimated from a probabilistic model) and can be calculated at any point within a music piece. This enables the comparison of surprisal across different musical content even if the musical events occur in irregular time intervals. We use beam search to generate musical material whose IIC curve closely approximates a given target IIC. We experimentally show that the IIC correlates with harmonic and rhythmic complexity and note density. The correlation decreases with the length of the musical context used for estimating the IIC. Finally, we conduct a qualitative user study to test if human listeners can identify the IIC curves that have been used as targets when generating the respective musical material. We provide code for creating IIC interpolations and IIC visualizations on https://github.com/muthissar/iic.
- Abstract(参考訳): 近年、音楽生成システムに対する品質と大衆の関心が高まり、これらのシステムを制御する様々な方法の研究が奨励されている。
そこで本研究では,シーケンスモデルを用いた音楽生成における副次的制御手法を提案する。
この目的を達成するために,IIC(Instantaneous Information Content)と呼ばれる指標を定義した。
IICは、(確率モデルから推定される)知覚された音楽推定のプロキシ機能として機能し、楽曲内の任意の点で計算することができる。
これにより、不規則な時間間隔で音楽イベントが発生したとしても、異なる音楽コンテンツ間での補間を比較することができる。
我々はビームサーチを用いて、IIC曲線が所定の目標ICに近似した音楽材料を生成する。
実験により,IICは高調波およびリズムの複雑さと音符密度に相関があることが判明した。
相関はIICの推定に用いる音楽文脈の長さに比例して減少する。
最後に、人間の聴取者がそれぞれの音楽素材を生成する際にターゲットとして使用したICC曲線を識別できるかどうかを定性的なユーザスタディで検証する。
https://github.com/muthissar/iic.comでICC補間とICC視覚化を作成するためのコードを提供します。
関連論文リスト
- Estimating Musical Surprisal in Audio [4.056099795258358]
シンボリック・ミュージックにおけるサブプライムのプロキシとしての自己回帰モデルからのワンステップ予測の情報コンテンツ(IC)
我々は、事前訓練されたオートエンコーダネットワークの圧縮遅延音声表現を予測するために、自己回帰変換モデルを訓練する。
音声・音楽の特徴とICの関係について検討し,音節の変動や声の大きさと相関し,低音域,不協和性,リズムの複雑度,および音声・音楽の特徴に関連するオンセット密度を推定した。
論文 参考訳(メタデータ) (2025-01-13T16:46:45Z) - Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures [3.463789345862036]
本稿では,コンテキストの潜在表現を生成するために,エンコーダと予測器を協調訓練する,結合埋め込み予測アーキテクチャに基づく新しい手法を提案する。
特に,任意の楽器に条件付けした予測器を設計し,ゼロショットステム検索を行えるようにした。
MUSDB18とMoisesDBデータセットを用いて,本モデルの検索性能を検証する。
論文 参考訳(メタデータ) (2024-11-29T16:11:47Z) - Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models [2.3749120526936465]
サンプルベース楽器の自動生成のためのニューラルオーディオ言語モデルを提案する。
提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
論文 参考訳(メタデータ) (2024-07-22T13:59:58Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Music Generation with Temporal Structure Augmentation [0.0]
提案手法は,歌の結末をカウントダウンしたコネクショニスト生成モデルと,余分な入力特徴としてメーターマーカーを付加する。
LSTMセルを持つRNNアーキテクチャは、教師付きシーケンス学習設定でノッティンガムフォークミュージックデータセットに基づいて訓練される。
実験では、両方のアノテーションの予測性能が改善された。
論文 参考訳(メタデータ) (2020-04-21T19:19:58Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。