論文の概要: Exploring Variational Auto-Encoder Architectures, Configurations, and
Datasets for Generative Music Explainable AI
- arxiv url: http://arxiv.org/abs/2311.08336v1
- Date: Tue, 14 Nov 2023 17:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:15:16.908623
- Title: Exploring Variational Auto-Encoder Architectures, Configurations, and
Datasets for Generative Music Explainable AI
- Title(参考訳): 生成可能AIのための変分自動エンコーダアーキテクチャ、構成、データセットの探索
- Authors: Nick Bryan-Kinns, Bingyuan Zhang, Songyan Zhao and Berker Banar
- Abstract要約: 音楽と芸術のための生成AIモデルは、ますます複雑で理解しづらい。
生成AIモデルをより理解しやすいものにするためのアプローチの1つは、生成AIモデルに少数の意味的に意味のある属性を課すことである。
本稿では,変分自動エンコーダモデル(MeasureVAEとAdversarialVAE)の異なる組み合わせが音楽生成性能に与える影響について,系統的な検討を行った。
- 参考スコア(独自算出の注目度): 7.391173255888337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI models for music and the arts in general are increasingly
complex and hard to understand. The field of eXplainable AI (XAI) seeks to make
complex and opaque AI models such as neural networks more understandable to
people. One approach to making generative AI models more understandable is to
impose a small number of semantically meaningful attributes on generative AI
models. This paper contributes a systematic examination of the impact that
different combinations of Variational Auto-Encoder models (MeasureVAE and
AdversarialVAE), configurations of latent space in the AI model (from 4 to 256
latent dimensions), and training datasets (Irish folk, Turkish folk, Classical,
and pop) have on music generation performance when 2 or 4 meaningful musical
attributes are imposed on the generative model. To date there have been no
systematic comparisons of such models at this level of combinatorial detail.
Our findings show that MeasureVAE has better reconstruction performance than
AdversarialVAE which has better musical attribute independence. Results
demonstrate that MeasureVAE was able to generate music across music genres with
interpretable musical dimensions of control, and performs best with low
complexity music such a pop and rock. We recommend that a 32 or 64 latent
dimensional space is optimal for 4 regularised dimensions when using MeasureVAE
to generate music across genres. Our results are the first detailed comparisons
of configurations of state-of-the-art generative AI models for music and can be
used to help select and configure AI models, musical features, and datasets for
more understandable generation of music.
- Abstract(参考訳): 音楽や芸術全般のための生成AIモデルは、ますます複雑で理解しづらい。
eXplainable AI(XAI)の分野は、ニューラルネットワークのような複雑で不透明なAIモデルをより理解しやすくすることを目指している。
生成AIモデルをより理解しやすいものにするための1つのアプローチは、生成AIモデルに少数の意味的に意味のある属性を加えることである。
本稿では,変分自動エンコーダモデル(MeasureVAEとAdversarialVAE)の異なる組み合わせ,AIモデルにおける潜時空間の構成(4~256次元),および2~4つの有意な音楽属性が生成モデルに課される場合の学習データセット(アイルランド人,トルコ人,クラシック人,ポップ人)が音楽生成性能に与える影響を系統的に検討する。
これまで、このようなモデルについて、このような組み合わせの詳細のレベルで体系的な比較は行われていない。
以上の結果から, measurevae は音楽的属性の独立性が高い adversarialvae よりも高いリコンストラクション性能を示した。
その結果、surveeは音楽ジャンルをまたいで、音楽の次元を制御でき、ポップやロックのような複雑度の低い音楽で最高に演奏できることがわかった。
ここでは,32ないし64の潜伏次元空間が4つの正規化次元に対して最適であることを示す。
本研究は,最新の音楽生成型aiモデルのコンフィグレーションを初めて詳細に比較し,より理解しやすい音楽生成のためのaiモデル,音楽特徴,データセットの選択と構成を支援する。
関連論文リスト
- Reducing Barriers to the Use of Marginalised Music Genres in AI [7.140590440016289]
このプロジェクトの目的は、AIモデルで疎外された音楽のジャンルを使用する際の障壁を減らすことに関連する、eXplainable AI(XAI)の課題と機会を探ることである。
特定されたXAIの機会には、AIモデルの透明性とコントロールの改善、AIモデルの倫理とバイアスの説明、バイアスを減らすために小さなデータセットで大規模モデルの微調整、AIモデルによるスタイル移行の機会の説明などが含まれる。
私たちは現在、グローバルなInternational Responsible AI Musicコミュニティをまとめて、私たちのネットワークへの参加を招待するために、このプロジェクトを構築しています。
論文 参考訳(メタデータ) (2024-07-18T12:10:04Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - An Autoethnographic Exploration of XAI in Algorithmic Composition [7.775986202112564]
本稿では,アイルランド音楽で学習した潜在次元の解釈可能な測度VeE生成音楽XAIモデルを用いた自己エスノグラフィー研究を紹介する。
音楽作成ワークフローの探索的性質は、生成モデル自体の特徴ではなく、トレーニングデータセットの音楽的特徴を前提としていることが示唆されている。
論文 参考訳(メタデータ) (2023-08-11T12:03:17Z) - Exploring XAI for the Arts: Explaining Latent Space in Generative Music [5.91328657300926]
音楽生成のための潜在変数モデルをより説明しやすいものにする方法を示す。
潜在空間正則化を用いて、潜在空間の特定の次元を有意義な音楽属性にマッピングする。
また、潜時空間における音楽的属性の可視化を行い、潜時空間次元の変化の影響を理解し予測する。
論文 参考訳(メタデータ) (2023-08-10T10:59:24Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - AI Song Contest: Human-AI Co-Creation in Songwriting [8.399688944263843]
音楽/開発者チーム13チーム,合計61人のユーザが,AIで楽曲を共同制作する上で必要なものについて報告する。
これらの課題のいくつかを克服するために、AIの既存の特徴をどのように活用し、再利用したかを示します。
発見は、より分解可能で、操縦可能で、解釈可能で、適応的な、機械学習による音楽インターフェースを設計する必要があることを反映している。
論文 参考訳(メタデータ) (2020-10-12T01:27:41Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。