論文の概要: QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems
- arxiv url: http://arxiv.org/abs/2508.08957v1
- Date: Tue, 12 Aug 2025 14:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.45281
- Title: QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems
- Title(参考訳): QAMRO:品質に配慮したアダプティブ・マージンランク付け最適化による音声生成システムの評価
- Authors: Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen,
- Abstract要約: 既存の手法では、平均世論スコア(MOS)予測を回帰問題として扱うが、標準的な回帰損失は知覚的判断の相対性を見落としている。
QAMROは、異なる視点から回帰目標をシームレスに統合する、新しい品質に配慮した適応型マージンランク最適化フレームワークである。
我々のフレームワークはCLAPやAudiobox-Aestheticsのような事前学習されたオーディオテキストモデルを活用し、公式のAudioMOS Challenge 2025データセットにのみトレーニングされている。
- 参考スコア(独自算出の注目度): 18.831062572775668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating audio generation systems, including text-to-music (TTM), text-to-speech (TTS), and text-to-audio (TTA), remains challenging due to the subjective and multi-dimensional nature of human perception. Existing methods treat mean opinion score (MOS) prediction as a regression problem, but standard regression losses overlook the relativity of perceptual judgments. To address this limitation, we introduce QAMRO, a novel Quality-aware Adaptive Margin Ranking Optimization framework that seamlessly integrates regression objectives from different perspectives, aiming to highlight perceptual differences and prioritize accurate ratings. Our framework leverages pre-trained audio-text models such as CLAP and Audiobox-Aesthetics, and is trained exclusively on the official AudioMOS Challenge 2025 dataset. It demonstrates superior alignment with human evaluations across all dimensions, significantly outperforming robust baseline models.
- Abstract(参考訳): TTM(text-to-music)、TTS(Text-to-Speech)、TTA(Text-to-audio)などの音声生成システムの評価は、人間の知覚の主観的・多次元的な性質のため、依然として困難である。
既存の手法では、平均世論スコア(MOS)予測を回帰問題として扱うが、標準的な回帰損失は知覚的判断の相対性を見落としている。
この制限に対処するため、QAMROは、異なる視点から回帰目標をシームレスに統合し、知覚的差異を強調し、正確な評価を優先順位付けすることを目的とした、新しい品質対応の適応的マージンランク最適化フレームワークである。
我々のフレームワークはCLAPやAudiobox-Aestheticsのような事前学習されたオーディオテキストモデルを活用し、公式のAudioMOS Challenge 2025データセットにのみトレーニングされている。
全次元にわたる人間の評価と優れた整合性を示し、ロバストなベースラインモデルを大幅に上回っている。
関連論文リスト
- AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - A Pyramid Recurrent Network for Predicting Crowdsourced Speech-Quality
Ratings of Real-World Signals [22.49276680317304]
我々は,人間の聴取者によって評価された実世界の音声信号の知覚的品質を収集し,予測する。
我々は,注目機構を備えたピラミッド双方向長期記憶(pBLSTM)ネットワークを用いて,人間の品質評価を予測する新しい手法を開発した。
論文 参考訳(メタデータ) (2020-07-31T01:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。