論文の概要: A Comprehensive Survey for Evaluation Methodologies of AI-Generated
Music
- arxiv url: http://arxiv.org/abs/2308.13736v1
- Date: Sat, 26 Aug 2023 02:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:25:34.966637
- Title: A Comprehensive Survey for Evaluation Methodologies of AI-Generated
Music
- Title(参考訳): AI生成音楽の評価手法に関する総合調査
- Authors: Zeyu Xiong, Weitao Wang, Jing Yu, Yue Lin, Ziyan Wang
- Abstract要約: 本研究の目的は,AI生成音楽を評価するための主観的,客観的,複合的な方法論を包括的に評価することである。
究極的には、音楽評価分野における生成的AIの統合のための貴重な参考資料を提供する。
- 参考スコア(独自算出の注目度): 14.453416870193072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, AI-generated music has made significant progress, with
several models performing well in multimodal and complex musical genres and
scenes. While objective metrics can be used to evaluate generative music, they
often lack interpretability for musical evaluation. Therefore, researchers
often resort to subjective user studies to assess the quality of the generated
works, which can be resource-intensive and less reproducible than objective
metrics. This study aims to comprehensively evaluate the subjective, objective,
and combined methodologies for assessing AI-generated music, highlighting the
advantages and disadvantages of each approach. Ultimately, this study provides
a valuable reference for unifying generative AI in the field of music
evaluation.
- Abstract(参考訳): 近年、AIが生成する音楽は大きな進歩を遂げ、複数のモデルがマルチモーダルな複雑な音楽ジャンルやシーンでうまく機能している。
客観的な指標は生成的音楽の評価に使用できるが、しばしば音楽評価の解釈可能性に欠ける。
そのため、研究者はしばしば主観的なユーザスタディを使って生成した作品の質を評価するが、これは客観的な指標よりもリソース集約的で再現性が低い。
本研究の目的は,ai生成音楽を評価するための主観的,客観的,複合的手法を総合的に評価することであり,それぞれのアプローチの利点と欠点を強調することである。
究極的には、この研究は音楽評価の分野で生成aiを統一するための貴重な参考となる。
関連論文リスト
- A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - A Survey of Music Generation in the Context of Interaction [3.6522809408725223]
機械学習は、メロディーとポリフォニックの両方の曲の作曲と生成に成功している。
これらのモデルのほとんどは、ライブインタラクションによる人間と機械の共創には適していない。
論文 参考訳(メタデータ) (2024-02-23T12:41:44Z) - Investigating Personalization Methods in Text to Music Generation [21.71190700761388]
コンピュータビジョン領域の最近の進歩に触発されて、事前学習されたテキスト・オーディオ・ディフューザと2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。
評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。
分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-09-20T08:36:34Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - An Order-Complexity Model for Aesthetic Quality Assessment of Symbolic
Homophony Music Scores [8.751312368054016]
AIが生み出す音楽の質は、人間の作曲家が生み出すものに比べれば比較的劣っている。
本稿では,ホモフォニー楽譜の美的品質評価のための客観的定量的評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T12:30:16Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - Subjective Evaluation of Deep Learning Models for Symbolic Music
Composition [1.1677169430445211]
本稿では,AIに基づく楽曲合成システムを評価するための主観的手法を提案する。
本研究では,音楽経験と知識に基づいて,基本的音楽原則に関する質問を,様々なレベルのユーザに対して行う。
論文 参考訳(メタデータ) (2022-03-28T10:56:55Z) - Evaluating Deep Music Generation Methods Using Data Augmentation [13.72212417973239]
我々は,アルゴリズムによって生成された楽曲のサンプルを評価するための,均質で客観的な枠組みに焦点をあてる。
生成した楽曲の楽譜評価は行わず,感情や気分やテーマに関する意味のある情報が含まれているかを探る。
論文 参考訳(メタデータ) (2021-12-31T20:35:46Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。