論文の概要: Exploring Latent Spaces of Tonal Music using Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2311.03621v1
- Date: Tue, 7 Nov 2023 00:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:28:40.984922
- Title: Exploring Latent Spaces of Tonal Music using Variational Autoencoders
- Title(参考訳): 変分オートエンコーダを用いたトーン音楽の潜時空間探索
- Authors: N\'adia Carvalho, Gilberto Bernardes
- Abstract要約: 変分オートエンコーダ (VAE) は認知的および意味的価値の潜在表現を生成するのに有効なモデルであることが証明されている。
バッハの合唱曲371曲の原型音節コーパスでVAEが訓練した程度を評価する。
- 参考スコア(独自算出の注目度): 0.9065034043031668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Autoencoders (VAEs) have proven to be effective models for
producing latent representations of cognitive and semantic value. We assess the
degree to which VAEs trained on a prototypical tonal music corpus of 371 Bach's
chorales define latent spaces representative of the circle of fifths and the
hierarchical relation of each key component pitch as drawn in music cognition.
In detail, we compare the latent space of different VAE corpus encodings --
Piano roll, MIDI, ABC, Tonnetz, DFT of pitch, and pitch class distributions --
in providing a pitch space for key relations that align with cognitive
distances. We evaluate the model performance of these encodings using objective
metrics to capture accuracy, mean square error (MSE), KL-divergence, and
computational cost. The ABC encoding performs the best in reconstructing the
original data, while the Pitch DFT seems to capture more information from the
latent space. Furthermore, an objective evaluation of 12 major or minor
transpositions per piece is adopted to quantify the alignment of 1) intra- and
inter-segment distances per key and 2) the key distances to cognitive pitch
spaces. Our results show that Pitch DFT VAE latent spaces align best with
cognitive spaces and provide a common-tone space where overlapping objects
within a key are fuzzy clusters, which impose a well-defined order of
structural significance or stability -- i.e., a tonal hierarchy. Tonal
hierarchies of different keys can be used to measure key distances and the
relationships of their in-key components at multiple hierarchies (e.g., notes
and chords). The implementation of our VAE and the encodings framework are made
available online.
- Abstract(参考訳): 変分オートエンコーダ(vaes)は認知的および意味的価値の潜在表現を生成する効果的なモデルであることが証明されている。
バッハの合唱曲371コラールの原型調律音楽コーパスでvaesが訓練された度合は、第5の円を代表する潜在空間と、音楽認知で描かれた各キー成分ピッチの階層的関係を定義する。
より詳しくは,VAEコーパス符号化の潜時空間(ピアノロール,MIDI,ABC,トネッツ,ピッチのDFT,ピッチクラス分布)を比較し,認知的距離に一致したキー関係のピッチ空間を提供する。
これらの符号化のモデル性能を客観的指標を用いて評価し, 精度, 平均二乗誤差 (mse) , kl-divergence, 計算コストを測定した。
ABCエンコーディングは元のデータを再構築する上で最善を尽くし、Pitch DFTは潜伏空間からより多くの情報を取得する。
さらに、1ピースにつき12個のメジャーまたはマイナーな転位を客観的に評価し、アラインメントを定量化する。
1)鍵及び鍵ごとの区内及び区間距離
2)認知的ピッチ空間への鍵距離。
その結果、ピッチdft vae 潜在空間は認知空間と最もよく一致し、キー内の重なり合う物体がファジィクラスタであり、構造的意義や安定性の明確な順序(すなわち音階階層)を課す共通音空間となることがわかった。
異なるキーのトーナル階層は、キー距離とキー内コンポーネントの複数の階層(例えば音符と和音)の関係を測定するのに使うことができる。
VAEとエンコーディングフレームワークの実装はオンラインで利用可能です。
関連論文リスト
- Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Free-text Keystroke Authentication using Transformers: A Comparative
Study of Architectures and Loss Functions [1.0152838128195467]
キーストロークバイオメトリックスは、個人のタイピング行動におけるユニークなパターンを活用する、ユーザ識別と検証のための有望なアプローチである。
本稿では,キーストロークシーケンスから情報的特徴を抽出する自己注意型トランスフォーマーネットワークを提案する。
我々のモデルは、フリーテキストキーストローク認証における従来の最先端技術を上回る。
論文 参考訳(メタデータ) (2023-10-18T00:34:26Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - DEFT: A new distance-based feature set for keystroke dynamics [1.8796659304823702]
キーストローク力学では従来考えられていなかった概念であるキーボード上のキー間の距離に基づく新しい特徴セットを提案する。
我々は、DEFT機能と以前に使用したキーストロークダイナミック機能を組み合わせることで、DEFTモデルを構築する。
DEFTモデルはデバイスに依存しないように設計されており、3つの一般的なデバイスで有効性を評価することができる。
論文 参考訳(メタデータ) (2023-10-06T07:26:40Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。