Fugu-MT 論文翻訳(概要): Deep Music Information Dynamics

論文の概要: Deep Music Information Dynamics

arxiv url: http://arxiv.org/abs/2102.01133v1
Date: Mon, 1 Feb 2021 19:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-04 09:52:15.267241
Title: Deep Music Information Dynamics
Title（参考訳）: 深層音楽情報ダイナミクス
Authors: Shlomo Dubnov
Abstract要約: 本稿では,2つの並列ストリーム – 低レート遅延表現ストリームと,音楽データ自体から派生した高レート情報ダイナミックス – を組み合わせた新しいフレームワークを提案する。人間の認知の速度ゆがみ理論に動機付けられ,聴取者の心に存在する想像上の予測と音楽面自体の情報力学の関係を探索する枠組みを提案する。
参考スコア（独自算出の注目度）: 1.6143012623830792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Music comprises of a set of complex simultaneous events organized in time. In this paper we introduce a novel framework that we call Deep Musical Information Dynamics, which combines two parallel streams - a low rate latent representation stream that is assumed to capture the dynamics of a thought process contrasted with a higher rate information dynamics derived from the musical data itself. Motivated by rate-distortion theories of human cognition we propose a framework for exploring possible relations between imaginary anticipations existing in the listener's mind and information dynamics of the musical surface itself. This model is demonstrated for the case of symbolic (MIDI) data, as accounting for acoustic surface would require many more layers to capture instrument properties and performance expressive inflections. The mathematical framework is based on variational encoding that first establishes a high rate representation of the musical observations, which is then reduced using a bit-allocation method into a parallel low rate data stream. The combined loss considered here includes both the information rate in terms of time evolution for each stream, and the fidelity of encoding measured in terms of mutual information between the high and low rate representations. In the simulations presented in the paper we are able to juxtapose aspects of latent/imaginary surprisal versus surprisal of the music surface in a manner that is quantifiable and computationally tractable. The set of computational tools is discussed in the paper, suggesting that a trade off between compression and prediction are an important factor in the analysis and design of time-based music generative models.
Abstract（参考訳）: 音楽は、時間内に組織された複雑な同時イベントからなる。本稿では,音楽データそのものに由来する高い速度情報ダイナミクスとは対照的に,思考過程のダイナミクスを捉えることを想定した,低速な潜在表現ストリームである2つの並列ストリームを組み合わせた,深層音楽情報ダイナミクスと呼ばれる新しい枠組みを提案する。我々は,人間認知の速度ゆがみ理論に動機づけられ,リスナーの心に存在する想像上の予測と音楽面自体の情報ダイナミクスの関係を探究する枠組みを提案する。このモデルはシンボリック(midi)データの場合、音響面の計算には多くの層が必要であり、楽器の特性や表現力の強い反射を捉えることができる。数学的枠組みは、まず音楽観測の高速表現を確立し、ビットアロケーション法を使用して並列低レートデータストリームに還元する変動符号化に基づいています。ここで考慮される複合損失は、各ストリームの時間発展の観点での情報レートと、ハイレート表現とローレート表現の間の相互情報で測定されたエンコーディングの忠実性の両方を含む。論文で提示したシミュレーションでは,音楽表面の潜時・虚数・副次的側面を定量的かつ計算的に抽出可能な方法で近似することができる。本論文では,時間に基づく音楽生成モデルの解析と設計において,圧縮と予測のトレードオフが重要な要素であることを示唆する計算ツールのセットについて論じる。

関連論文リスト

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation [32.05517352929237]
最先端システム(SOTA)は、トレーニングデータセット、モデリングパラダイム、アーキテクチャ選択など、多くの領域で大きく異なる。本研究はモデリングパラダイムにのみ焦点をあてる。自動回帰デコーディングと条件付きフローマッチングという,最も一般的な2つのモデリングパラダイムを比較した。
論文参考訳（メタデータ） (2025-06-10T08:37:45Z)
Expressive Music Data Processing and Generation [4.549093083765949]
音楽の表現性とコヒーレンスは、作曲と演奏に不可欠である。本稿では,演奏の表現性を捉えるリスニングに基づくデータ処理手法を提案する。
論文参考訳（メタデータ） (2025-03-14T21:56:07Z)
Evaluating Interval-based Tokenization for Pitch Representation in Symbolic Music Analysis [0.10241134756773229]
インターバルベースのトークン化を構築するための一般的なフレームワークを紹介する。間隔ベースのトークン化によってモデルの性能が向上し、説明可能性も向上することを示す。
論文参考訳（メタデータ） (2025-01-08T17:22:03Z)
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures [3.463789345862036]
本稿では,コンテキストの潜在表現を生成するために,エンコーダと予測器を協調訓練する,結合埋め込み予測アーキテクチャに基づく新しい手法を提案する。特に,任意の楽器に条件付けした予測器を設計し,ゼロショットステム検索を行えるようにした。 MUSDB18とMoisesDBデータセットを用いて,本モデルの検索性能を検証する。
論文参考訳（メタデータ） (2024-11-29T16:11:47Z)
TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文参考訳（メタデータ） (2024-01-06T06:26:49Z)
Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。 3つの異なる情報抽出手法を組み込んだワークフローを構築した。 MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文参考訳（メタデータ） (2023-12-18T14:31:58Z)
Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文参考訳（メタデータ） (2023-07-27T15:18:50Z)
DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文参考訳（メタデータ） (2023-05-03T17:40:49Z)
Relating Human Perception of Musicality to Prediction in a Predictive Coding Model [0.8062120534124607]
人間の音楽知覚をモデル化するための予測符号化にインスパイアされたニューラルネットワークの利用について検討する。このネットワークは階層視覚野における反復的相互作用の計算神経科学理論に基づいて開発された。このネットワークを用いて階層的な聴覚システムをモデル化し、ランダムなピッチ列の楽しさに関して、人間と同じような選択をするかどうかを検討する。
論文参考訳（メタデータ） (2022-10-29T12:20:01Z)
Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文参考訳（メタデータ） (2022-04-05T12:52:45Z)
CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文参考訳（メタデータ） (2021-07-16T17:57:44Z)
Sequence Generation using Deep Recurrent Networks and Embeddings: A study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文参考訳（メタデータ） (2020-12-02T14:19:19Z)
Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文参考訳（メタデータ） (2020-08-01T07:46:24Z)
Learning Style-Aware Symbolic Music Representations by Adversarial Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。第1回音楽Adversarial Autoencoder(MusAE)について紹介する。我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文参考訳（メタデータ） (2020-01-15T18:07:20Z)
Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。 Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文参考訳（メタデータ） (2020-01-06T18:35:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。