論文の概要: DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction
- arxiv url: http://arxiv.org/abs/2508.21407v1
- Date: Fri, 29 Aug 2025 08:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.965382
- Title: DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction
- Title(参考訳): DRASP: 自動MOS予測のためのデュアルリゾリューション注意統計フレームワーク
- Authors: Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen,
- Abstract要約: 本稿では,Dual-Resolution Attentive Statistics Pooling (DRASP) フレームワークを紹介する。
DRASPは、粗大でグローバルな統計要約と、知覚的に重要なセグメントの細粒で注意深い分析の両方を統合している。
さまざまなデータセットにまたがって、さまざまなベースラインメソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 21.20778568616635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A pooling mechanism is essential for mean opinion score (MOS) prediction, facilitating the transformation of variable-length audio features into a concise fixed-size representation that effectively encodes speech quality. Existing pooling methods typically operate at a singular granularity, concentrating either on a comprehensive global perspective or a detailed frame-level analysis, which may overlook complementary perceptual insights. To address this limitation, we introduce the Dual-Resolution Attentive Statistics Pooling (DRASP) framework. DRASP integrates both coarse-grained, global statistical summaries and fine-grained, attentive analyses of perceptually significant segments. This dual-view architecture empowers our model to formulate a more thorough and robust representation, capturing both the overarching structural context and salient local details concurrently. Extensive experiments validate the effectiveness and strong generalization ability of the proposed framework. It consistently outperforms various baseline methods across diverse datasets (MusicEval and AES-Natural), MOS prediction backbones (including a CLAP-based model and AudioBox-Aesthetics), and different audio generation systems, achieving a relative improvement of 10.39% in system-level Spearman's rank correlation coefficient (SRCC) over the widely-used average pooling approach.
- Abstract(参考訳): プール機構は平均世論スコア(MOS)予測に不可欠であり、可変長音声特徴の音声品質を効果的に符号化する簡潔な固定サイズ表現への変換を容易にする。
既存のプーリング法は典型的には特異な粒度で動作し、包括的大局的視点や詳細なフレームレベルの分析に集中し、補完的な知覚的洞察を見落としている。
この制限に対処するため、Dual-Resolution Attentive Statistics Pooling (DRASP) フレームワークを紹介します。
DRASPは、粗大でグローバルな統計要約と、知覚的に重要なセグメントの細粒で注意深い分析の両方を統合している。
このデュアルビューアーキテクチャは、より徹底的で堅牢な表現を定式化し、包括的な構造的コンテキストと適切な局所的詳細の両方を同時にキャプチャする。
大規模な実験により,提案フレームワークの有効性と強力な一般化能力が検証された。
様々なデータセット(MusicEvalとAES-Natural)、MOS予測バックボーン(CLAPベースのモデルとAudioBox-Aestheticsを含む)、および様々なオーディオ生成システムで、広く使われている平均プール方式よりもシステムレベルのスピアマンのランク相関係数(SRCC)が10.39%向上した。
関連論文リスト
- BTW: A Non-Parametric Variance Stabilization Framework for Multimodal Model Integration [20.600001069987318]
トレーニング中のモダリティ重要度を動的に調整するために,BTW(Beyond Two-modality Weighting)を提案する。
BTWは、各ユニモーダルと現在のマルチモーダル予測とのばらつきを測定することで、サンプル毎のKL重みを計算する。
本手法は回帰性能と多クラス分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-25T23:00:38Z) - Foundation Models for Demand Forecasting via Dual-Strategy Ensembling [11.926658499983446]
本研究では,現実のサプライチェーンにおける販売予測のための基盤モデルの性能を向上させる統一アンサンブルフレームワークを提案する。
提案手法は,(1)階層型アンサンブル(HE)と(2)モデルバックボーンからの予測を統合し,バイアスを緩和し,安定性を向上させるアーキテクチャアンサンブル(AE)の2つの相補的戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-07-29T17:56:38Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。
提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。