論文の概要: Perceiving Music Quality with GANs
- arxiv url: http://arxiv.org/abs/2006.06287v2
- Date: Sun, 4 Apr 2021 14:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 14:41:43.861732
- Title: Perceiving Music Quality with GANs
- Title(参考訳): GANによる音楽の質評価
- Authors: Agrin Hilmkil, Carl Thom\'e, Anders Arpteg
- Abstract要約: 本研究では,大規模な音楽ライブラリ上でGANを訓練し,その判別器を音楽の知覚品質の非参照品質評価尺度として用いることを提案する。
448人の被験者による聴取テストにおいて、被験者は、異なるレベルと種類の信号劣化で、プロが制作した音楽トラックを格付けし、人間の格付けされた素材のデータセットを構築した。
人間の評価データセットを用いて、判別器のスコアが主観的評価と大きく相関していることを示し、提案手法が非参照音質評価尺度の作成に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several methods have been developed to assess the perceptual quality of audio
under transforms like lossy compression. However, they require paired reference
signals of the unaltered content, limiting their use in applications where
references are unavailable. This has hindered progress in audio generation and
style transfer, where a no-reference quality assessment method would allow more
reproducible comparisons across methods. We propose training a GAN on a large
music library, and using its discriminator as a no-reference quality assessment
measure of the perceived quality of music. This method is unsupervised, needs
no access to degraded material and can be tuned for various domains of music.
In a listening test with 448 human subjects, where participants rated
professionally produced music tracks degraded with different levels and types
of signal degradations such as waveshaping distortion and low-pass filtering,
we establish a dataset of human rated material. By using the human rated
dataset we show that the discriminator score correlates significantly with the
subjective ratings, suggesting that the proposed method can be used to create a
no-reference musical audio quality assessment measure.
- Abstract(参考訳): 損失圧縮のような変換下での音声の知覚品質を評価するために、いくつかの手法が開発されている。
しかし、それらは、修正されていないコンテンツのペア参照信号を必要とし、参照が利用できないアプリケーションでの使用を制限する。
これにより、オーディオ生成やスタイル転送の進歩が妨げられ、ノン参照品質評価手法は、メソッド間でより再現可能な比較を可能にする。
大規模音楽ライブラリ上でganを訓練し,その判別器を音楽の知覚品質の無基準品質評価尺度として用いることを提案する。
この方法は教師なしで、劣化した素材にアクセスできず、様々な分野の音楽に合わせて調整することができる。
448人の被験者による聴取テストにおいて、被験者は、波形歪みや低域通過フィルタリングなどの信号劣化のレベルやタイプが異なる音楽トラックを評価し、人間の評価資料のデータセットを構築した。
人間の評価データセットを用いて、判別器スコアが主観評価と有意な相関があることを示し、提案手法が非参照音質評価尺度の作成に有効であることを示唆する。
関連論文リスト
- Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - Generating High-quality Symbolic Music Using Fine-grained Discriminators [42.200747558496055]
本稿では,メロディとリズムを音楽から分離し,それに対応する微粒な識別器を設計することを提案する。
具体的には、ピッチ増強戦略を備えるメロディ判別器は、生成されたサンプルによって提示されるメロディ変動を識別する。
バーレベルの相対的な位置エンコーディングで強化されたリズム判別器は、生成された音符の速度に焦点を当てる。
論文 参考訳(メタデータ) (2024-08-03T07:32:21Z) - A No-Reference Quality Assessment Method for Digital Human Head [56.17852258306602]
我々は、デジタルヒューマン品質評価(DHQA)を扱うトランスフォーマーに基づく新しいノリフレクション(NR)手法を開発した。
具体的には、デジタル人間の前方2次元投影を入力として描画し、特徴抽出に視覚変換器(ViT)を用いる。
次に,歪み型を共同分類し,デジタル人間の知覚品質レベルを予測するマルチタスクモジュールを設計する。
論文 参考訳(メタデータ) (2023-10-25T16:01:05Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - A Perceptual Measure for Evaluating the Resynthesis of Automatic Music
Transcriptions [10.957528713294874]
本研究では,室内音響や楽器などの環境要因が変化した場合の演奏の知覚に焦点を当てた。
我々は「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
論文 参考訳(メタデータ) (2022-02-24T18:09:22Z) - Audio Defect Detection in Music with Deep Networks [8.680081568962997]
一般的な音楽コールのクリックなどのアーティファクトを、データ中心でコンテキストに敏感な検出ソリューションとして使用すること。
本稿では、エンド・ツー・エンドのエンコーダ・デコーダの構成に従って畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-11T15:56:14Z) - Evaluating Deep Music Generation Methods Using Data Augmentation [13.72212417973239]
我々は,アルゴリズムによって生成された楽曲のサンプルを評価するための,均質で客観的な枠組みに焦点をあてる。
生成した楽曲の楽譜評価は行わず,感情や気分やテーマに関する意味のある情報が含まれているかを探る。
論文 参考訳(メタデータ) (2021-12-31T20:35:46Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。