論文の概要: Enhanced Generative Machine Listener
- arxiv url: http://arxiv.org/abs/2509.21463v1
- Date: Thu, 25 Sep 2025 19:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.940529
- Title: Enhanced Generative Machine Listener
- Title(参考訳): ジェネレーティブマシンリスナーの強化
- Authors: Vishnu Raj, Gouthaman KV, Shiv Gehlot, Lars Villemoes, Arijit Biswas,
- Abstract要約: 本稿では,MUSHRAスコアによる主観的音質予測のための基準ベースモデルGMLv2を提案する。
多様なテストセットに関する広範な評価は、提案されたGMLv2が、PEAQやViSQOLなど、広く使用されているメトリクスを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 4.617709589918516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GMLv2, a reference-based model designed for the prediction of subjective audio quality as measured by MUSHRA scores. GMLv2 introduces a Beta distribution-based loss to model the listener ratings and incorporates additional neural audio coding (NAC) subjective datasets to extend its generalization and applicability. Extensive evaluations on diverse testset demonstrate that proposed GMLv2 consistently outperforms widely used metrics, such as PEAQ and ViSQOL, both in terms of correlation with subjective scores and in reliably predicting these scores across diverse content types and codec configurations. Consequently, GMLv2 offers a scalable and automated framework for perceptual audio quality evaluation, poised to accelerate research and development in modern audio coding technologies.
- Abstract(参考訳): 本稿では,MUSHRAスコアによる主観的音質予測のための基準ベースモデルGMLv2を提案する。
GMLv2は、リスナのレーティングをモデル化するために、ベータディストリビューションベースの損失を導入し、その一般化と適用性を拡張するために、追加のニューラルオーディオ符号化(NAC)主観的データセットを組み込んだ。
多様なテストセットに関する広範囲な評価は、提案されたGMLv2が、主観的スコアとの相関や、様々なコンテンツタイプやコーデック構成にまたがるスコアの確実な予測の両方において、PEAQやViSQOLなど、広く使用されているメトリクスを一貫して上回っていることを示している。
その結果、GMLv2は、現代のオーディオ符号化技術の研究と開発を加速するための、知覚的オーディオ品質評価のためのスケーラブルで自動化されたフレームワークを提供する。
関連論文リスト
- Thinking While Listening: Simple Test Time Scaling For Audio Classification [61.3564313676731]
本稿では,ニューラルネットワークが日常の音を聴きながら"考える"ことを可能にするフレームワークを提案する。
大規模言語モデルの推論能力の最近の進歩により、我々は2つの中心的な疑問に対処する: (i) 既存の音声分類パイプラインに思考を組み込んで、カテゴリ空間での推論を可能にし、パフォーマンスを向上させる方法、(ii) 思考とテストタイムのスケーリングの両方をサポートするために、新しいアーキテクチャをゼロから設計することができるか。
論文 参考訳(メタデータ) (2025-09-24T01:17:24Z) - QASTAnet: A DNN-based Quality Metric for Spatial Audio [0.0]
本稿では,空間音響に特化したディープニューラルネットワークに基づく新しいメトリクスであるQASTAnet(Quality Assessment for SpaTial Audio Network)を提案する。
トレーニングデータが不足しているため、少量のデータでモデルをトレーニングできるようにすることを目標としています。
結果は、QASTAnetが既存のメソッドの制限を克服していることを示している。
論文 参考訳(メタデータ) (2025-09-20T14:57:09Z) - Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - How deep is your encoder: an analysis of features descriptors for an
autoencoder-based audio-visual quality metric [2.191505742658975]
No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder (NAViDAd)は、機械学習の観点からこの問題を扱う。
NAViDAdの基本的な実装は、様々なオーディオヴィジュアルデータベースでテストされた正確な予測を生成することができた。
論文 参考訳(メタデータ) (2020-03-24T20:15:12Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。