論文の概要: MMMOS: Multi-domain Multi-axis Audio Quality Assessment
- arxiv url: http://arxiv.org/abs/2507.04094v1
- Date: Sat, 05 Jul 2025 16:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.009443
- Title: MMMOS: Multi-domain Multi-axis Audio Quality Assessment
- Title(参考訳): MMMOS:マルチドメイン多軸オーディオ品質評価
- Authors: Yi-Cheng Lin, Jia-Hung Chen, Hung-yi Lee,
- Abstract要約: 既存の非侵襲的評価モデルでは、音声の1つの平均オピニオンスコア(MOS)を予測する。
MMMOSは、プロダクション品質、生産複雑さ、コンテンツ満足度、コンテンツ有用性という4つの軸を推定する、非参照マルチドメインオーディオ品質評価システムである。
MMMOSは平均2乗誤差が20-30%減少し、ケンドールのタウ対ベースラインが4-5%増加した。
- 参考スコア(独自算出の注目度): 49.48516314472825
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurate audio quality estimation is essential for developing and evaluating audio generation, retrieval, and enhancement systems. Existing non-intrusive assessment models predict a single Mean Opinion Score (MOS) for speech, merging diverse perceptual factors and failing to generalize beyond speech. We propose MMMOS, a no-reference, multi-domain audio quality assessment system that estimates four orthogonal axes: Production Quality, Production Complexity, Content Enjoyment, and Content Usefulness across speech, music, and environmental sounds. MMMOS fuses frame-level embeddings from three pretrained encoders (WavLM, MuQ, and M2D) and evaluates three aggregation strategies with four loss functions. By ensembling the top eight models, MMMOS shows a 20-30% reduction in mean squared error and a 4-5% increase in Kendall's {\tau} versus baseline, gains first place in six of eight Production Complexity metrics, and ranks among the top three on 17 of 32 challenge metrics.
- Abstract(参考訳): 音声生成・検索・拡張システムの開発・評価には,正確な音質推定が不可欠である。
既存の非侵入的アセスメントモデルでは、音声に対する1つの平均オピニオンスコア(MOS)を予測し、多様な知覚的要因を融合させ、音声以外の一般化に失敗する。
MMMOSは、音声、音楽、環境音の4つの直交軸(生産品質、生産複雑度、コンテンツ満足度、コンテンツ有用性)を推定する、非参照マルチドメインオーディオ品質評価システムである。
MMMOSは、予め訓練された3つのエンコーダ(WavLM, MuQ, M2D)からフレームレベルの埋め込みを融合し、4つの損失関数を持つ3つのアグリゲーション戦略を評価する。
上位8つのモデルを統合することで、MMMOSは平均2乗誤差を20-30%削減し、Kendall's {\tau}とベースラインを4-5%増加させ、8つのProduct Complexityメトリクスのうち6つで1位を獲得し、32の課題メトリクスのうち17の上位3つにランクインした。
関連論文リスト
- MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation [81.26818054877658]
MMMGは、4つのモダリティの組み合わせにまたがるマルチモーダル生成の包括的なベンチマークである。
人間の評価と高度に一致し、平均94.3%の合意を達成している。
GPTイメージは画像生成の精度は78.3%であるが、マルチモーダル推論とインターリーブ生成では不足している。
論文 参考訳(メタデータ) (2025-05-23T08:21:28Z) - MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix [50.71803775663387]
MMARは、精密にキュレートされた1000個のオーディオクエスト・アンサー・トリプルから構成される。
MMARは既存のベンチマークを幅広い実世界のオーディオシナリオに拡張する。
我々は,Large Audio-Language Models (LALM)を含む,幅広いモデルの集合を用いてMMARを評価する。
論文 参考訳(メタデータ) (2025-05-19T12:18:42Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。