論文の概要: Deep Music Information Dynamics
- arxiv url: http://arxiv.org/abs/2102.01133v1
- Date: Mon, 1 Feb 2021 19:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 09:52:15.267241
- Title: Deep Music Information Dynamics
- Title(参考訳): 深層音楽情報ダイナミクス
- Authors: Shlomo Dubnov
- Abstract要約: 本稿では,2つの並列ストリーム – 低レート遅延表現ストリームと,音楽データ自体から派生した高レート情報ダイナミックス – を組み合わせた新しいフレームワークを提案する。
人間の認知の速度ゆがみ理論に動機付けられ,聴取者の心に存在する想像上の予測と音楽面自体の情報力学の関係を探索する枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.6143012623830792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music comprises of a set of complex simultaneous events organized in time. In
this paper we introduce a novel framework that we call Deep Musical Information
Dynamics, which combines two parallel streams - a low rate latent
representation stream that is assumed to capture the dynamics of a thought
process contrasted with a higher rate information dynamics derived from the
musical data itself. Motivated by rate-distortion theories of human cognition
we propose a framework for exploring possible relations between imaginary
anticipations existing in the listener's mind and information dynamics of the
musical surface itself. This model is demonstrated for the case of symbolic
(MIDI) data, as accounting for acoustic surface would require many more layers
to capture instrument properties and performance expressive inflections. The
mathematical framework is based on variational encoding that first establishes
a high rate representation of the musical observations, which is then reduced
using a bit-allocation method into a parallel low rate data stream. The
combined loss considered here includes both the information rate in terms of
time evolution for each stream, and the fidelity of encoding measured in terms
of mutual information between the high and low rate representations. In the
simulations presented in the paper we are able to juxtapose aspects of
latent/imaginary surprisal versus surprisal of the music surface in a manner
that is quantifiable and computationally tractable. The set of computational
tools is discussed in the paper, suggesting that a trade off between
compression and prediction are an important factor in the analysis and design
of time-based music generative models.
- Abstract(参考訳): 音楽は、時間内に組織された複雑な同時イベントからなる。
本稿では,音楽データそのものに由来する高い速度情報ダイナミクスとは対照的に,思考過程のダイナミクスを捉えることを想定した,低速な潜在表現ストリームである2つの並列ストリームを組み合わせた,深層音楽情報ダイナミクスと呼ばれる新しい枠組みを提案する。
我々は,人間認知の速度ゆがみ理論に動機づけられ,リスナーの心に存在する想像上の予測と音楽面自体の情報ダイナミクスの関係を探究する枠組みを提案する。
このモデルはシンボリック(midi)データの場合、音響面の計算には多くの層が必要であり、楽器の特性や表現力の強い反射を捉えることができる。
数学的枠組みは、まず音楽観測の高速表現を確立し、ビットアロケーション法を使用して並列低レートデータストリームに還元する変動符号化に基づいています。
ここで考慮される複合損失は、各ストリームの時間発展の観点での情報レートと、ハイレート表現とローレート表現の間の相互情報で測定されたエンコーディングの忠実性の両方を含む。
論文で提示したシミュレーションでは,音楽表面の潜時・虚数・副次的側面を定量的かつ計算的に抽出可能な方法で近似することができる。
本論文では,時間に基づく音楽生成モデルの解析と設計において,圧縮と予測のトレードオフが重要な要素であることを示唆する計算ツールのセットについて論じる。
関連論文リスト
- Evaluating Interval-based Tokenization for Pitch Representation in Symbolic Music Analysis [0.10241134756773229]
インターバルベースのトークン化を構築するための一般的なフレームワークを紹介する。
間隔ベースのトークン化によってモデルの性能が向上し、説明可能性も向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T17:22:03Z) - Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures [3.463789345862036]
本稿では,コンテキストの潜在表現を生成するために,エンコーダと予測器を協調訓練する,結合埋め込み予測アーキテクチャに基づく新しい手法を提案する。
特に,任意の楽器に条件付けした予測器を設計し,ゼロショットステム検索を行えるようにした。
MUSDB18とMoisesDBデータセットを用いて,本モデルの検索性能を検証する。
論文 参考訳(メタデータ) (2024-11-29T16:11:47Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。