論文の概要: Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations
- arxiv url: http://arxiv.org/abs/2603.16201v1
- Date: Tue, 17 Mar 2026 07:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.148042
- Title: Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations
- Title(参考訳): ロバストな生成音質評価 : 清潔な相関から音質を遠ざける
- Authors: Kuan-Tang Huang, Chien-Chun Wang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen,
- Abstract要約: ドメイン逆行訓練を用いて、真の品質知覚をノイズ要因から切り離す。
その結果,人間の評価と相関性は著しく向上し,予測不可能な生成シナリオのより優れた一般化が達成された。
- 参考スコア(独自算出の注目度): 21.20778568616635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of AI-Generated Content (AIGC) has necessitated robust metrics for perceptual quality assessment. However, automatic Mean Opinion Score (MOS) prediction models are often compromised by data scarcity, predisposing them to learn spurious correlations-- such as dataset-specific acoustic signatures-- rather than generalized quality features. To address this, we leverage domain adversarial training (DAT) to disentangle true quality perception from these nuisance factors. Unlike prior works that rely on static domain priors, we systematically investigate domain definition strategies ranging from explicit metadata-driven labels to implicit data-driven clusters. Our findings reveal that there is no "one-size-fits-all" domain definition; instead, the optimal strategy is highly dependent on the specific MOS aspect being evaluated. Experimental results demonstrate that our aspect-specific domain strategy effectively mitigates acoustic biases, significantly improving correlation with human ratings and achieving superior generalization on unseen generative scenarios.
- Abstract(参考訳): AIGC(AI-Generated Content)の急速な普及は、知覚品質評価のための堅牢な指標を必要としている。
しかし、自動平均オピニオンスコア(MOS)予測モデルは、一般的な品質特徴ではなく、データセット固有の音響シグネチャのような素早い相関を学習するために、データ不足によってしばしば妥協される。
これを解決するために、ドメイン逆境訓練(DAT)を活用して、これらのニュアンス要因から真の品質知覚を解き放つ。
静的なドメイン事前に依存する以前の作業とは異なり、明示的なメタデータ駆動ラベルから暗黙的なデータ駆動クラスタに至るまで、ドメイン定義戦略を体系的に調査する。
以上の結果から, 最適戦略は, 評価対象の特定のMOS側面に大きく依存することが明らかとなった。
実験により,我々のアスペクト特異的ドメイン戦略は音響バイアスを効果的に軽減し,人間の評価との相関性を著しく改善し,目に見えない生成シナリオにおいて優れた一般化を実現していることが示された。
関連論文リスト
- The Achilles Heel of AI: Fundamentals of Risk-Aware Training Data for High-Consequence Models [0.0]
高頻度ドメインのAIシステムは、厳密なリソース制約の下で運用しながら、稀で高インパクトなイベントを検出する必要がある。
ラベルのボリュームを情報的価値よりも優先する従来のアノテーション戦略は冗長性とノイズをもたらす。
本稿では、ラベルの多様性、モデル誘導選択、限界ユーティリティベースの停止を強調するトレーニングデータ戦略であるスマートサイズについて紹介する。
論文 参考訳(メタデータ) (2025-05-20T22:57:35Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。
本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。
G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文 参考訳(メタデータ) (2025-03-13T02:16:48Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Robust Stance Detection: Understanding Public Perceptions in Social Media [15.460495567765362]
スタンス検出は、明確に定義されたトピックに対する正確な位置を特定する。
従来のスタンス検出モデルは、新しいドメインやトピックに適用すると、パフォーマンスが低下することが多い。
本稿では,反実データ拡張と対照的な学習を組み合わせることで,姿勢検出の堅牢性を高める方法を提案する。
論文 参考訳(メタデータ) (2023-09-26T18:19:51Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Fairness without the sensitive attribute via Causal Variational
Autoencoder [17.675997789073907]
EUにおけるプライバシーの目的とRGPDのような多彩な規制のため、多くの個人機密属性は収集されないことが多い。
近年の開発成果を近似推論に活用することにより,このギャップを埋めるためのアプローチを提案する。
因果グラフに基づいて、機密情報プロキシを推論するために、SRCVAEと呼ばれる新しい変分自動符号化ベースのフレームワークを利用する。
論文 参考訳(メタデータ) (2021-09-10T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。