論文の概要: Expressive Music Data Processing and Generation
- arxiv url: http://arxiv.org/abs/2503.11896v1
- Date: Fri, 14 Mar 2025 21:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:28:27.987412
- Title: Expressive Music Data Processing and Generation
- Title(参考訳): 音楽データ処理と生成
- Authors: Jingwei Liu,
- Abstract要約: 音楽の表現性とコヒーレンスは、作曲と演奏に不可欠である。
本稿では,演奏の表現性を捉えるリスニングに基づくデータ処理手法を提案する。
- 参考スコア(独自算出の注目度): 4.549093083765949
- License:
- Abstract: Musical expressivity and coherence are indispensable in music composition and performance, while often neglected in modern AI generative models. In this work, we introduce a listening-based data-processing technique that captures the expressivity in musical performance. This technique derived from Weber's law reflects the human perceptual truth of listening and preserves musical subtlety and expressivity in the training input. To facilitate musical coherence, we model the output interdependencies among multiple arguments in the music data such as pitch, duration, velocity, etc. in the neural networks based on the probabilistic chain rule. In practice, we decompose the multi-output sequential model into single-output submodels and condition previously sampled outputs on the subsequent submodels to induce conditional distributions. Finally, to select eligible sequences from all generations, a tentative measure based on the output entropy was proposed. The entropy sequence is set as a criterion to select predictable and stable generations, which is further studied under the context of informational aesthetic measures to quantify musical pleasure and information gain along the music tendency.
- Abstract(参考訳): 音楽表現性とコヒーレンスは作曲と演奏には不可欠であるが、現代のAI生成モデルでは無視されることが多い。
本研究では,音楽演奏における表現力を捉えるリスニングに基づくデータ処理手法を提案する。
ウェーバーの法則から導かれたこの技法は、人間の聴取の真理を反映し、トレーニング入力における音楽的微妙さと表現性を保っている。
本研究では,確率的連鎖規則に基づくニューラルネットワークにおけるピッチ,持続時間,速度などの音楽データにおける複数の引数間の出力相互依存性をモデル化する。
実例では、マルチ出力シーケンシャルモデルを単一出力サブモデルに分解し、後続のサブモデル上で条件付きサンプル出力を行い、条件分布を誘導する。
最後に、全ての世代から許容列を選択するために、出力エントロピーに基づく仮測度を提案した。
エントロピーシーケンスは、予測可能で安定した世代を選択するための基準として設定され、音楽の傾向に沿った音楽の楽しみと情報ゲインを定量化するための情報美的尺度の文脈下でさらに研究される。
関連論文リスト
- A Survey of Music Generation in the Context of Interaction [3.6522809408725223]
機械学習は、メロディーとポリフォニックの両方の曲の作曲と生成に成功している。
これらのモデルのほとんどは、ライブインタラクションによる人間と機械の共創には適していない。
論文 参考訳(メタデータ) (2024-02-23T12:41:44Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Deep Generative Models of Music Expectation [2.900810893770134]
本稿では, 拡散モデルを用いて, 最新の深層確率生成モデルを用いて, 音楽入力シーケンスの近似確率を計算することを提案する。
従来の研究とは異なり、ディープニューラルネットワークによってパラメータ化されたこのような生成モデルは、トレーニングセット自体から直接、複雑な非線形特徴を学習することができる。
本研究では,事前学習した拡散モデルが,被測定対象の「ライキング」評価と負の二次的関係を示す音楽的前提値をもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-05T12:25:39Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Deep Music Information Dynamics [1.6143012623830792]
本稿では,2つの並列ストリーム – 低レート遅延表現ストリームと,音楽データ自体から派生した高レート情報ダイナミックス – を組み合わせた新しいフレームワークを提案する。
人間の認知の速度ゆがみ理論に動機付けられ,聴取者の心に存在する想像上の予測と音楽面自体の情報力学の関係を探索する枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-01T19:59:59Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。