論文の概要: WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction
- arxiv url: http://arxiv.org/abs/2506.05899v1
- Date: Fri, 06 Jun 2025 09:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.397996
- Title: WhisQ: Cross-Modal Representation Learning for Text-to-Music MOS Prediction
- Title(参考訳): WhisQ:テキストから音楽へのMOS予測のためのクロスプラットフォーム表現学習
- Authors: Jakaria Islam Emon, Kazi Tamanna Alam, Md. Abu Salek,
- Abstract要約: テキストから音楽システムへの平均オピニオンスコア(MOS)予測は、全体的な音楽品質とテキストプロンプトアライメントの両方を評価する必要がある。
本稿では、シーケンスレベルのコアテンションと最適なトランスポート正規化を通じて、この二重評価問題に対処するマルチモーダルアーキテクチャであるWhisQを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mean Opinion Score (MOS) prediction for text to music systems requires evaluating both overall musical quality and text prompt alignment. This paper introduces WhisQ, a multimodal architecture that addresses this dual-assessment challenge through sequence level co-attention and optimal transport regularization. WhisQ employs the Whisper Base pretrained model for temporal audio encoding and Qwen 3, a 0.6B Small Language Model (SLM), for text encoding, with both maintaining sequence structure for fine grained cross-modal modeling. The architecture features specialized prediction pathways: OMQ is predicted from pooled audio embeddings, while TA leverages bidirectional sequence co-attention between audio and text. Sinkhorn optimal transport loss further enforce semantic alignment in the shared embedding space. On the MusicEval Track-1 dataset, WhisQ achieves substantial improvements over the baseline: 7% improvement in Spearman correlation for OMQ and 14% for TA. Ablation studies reveal that optimal transport regularization provides the largest performance gain (10% SRCC improvement), demonstrating the importance of explicit cross-modal alignment for text-to-music evaluation.
- Abstract(参考訳): テキストから音楽システムへの平均オピニオンスコア(MOS)予測は、全体的な音楽品質とテキストプロンプトアライメントの両方を評価する必要がある。
本稿では、シーケンスレベルのコアテンションと最適なトランスポート正規化を通じて、この二重評価問題に対処するマルチモーダルアーキテクチャであるWhisQを紹介する。
WhisQは、時相オーディオエンコーディングにWhisper Base事前訓練モデル、テキストエンコーディングに0.6BのSmall Language Model (SLM)、細粒度クロスモーダルモデリングのためのシーケンス構造を維持するQwen 3を採用している。
OMQはプールされたオーディオ埋め込みから予測され、TAはオーディオとテキスト間の双方向シーケンスのコアテンションを利用する。
シンクホーンの最適輸送損失は、共有埋め込み空間におけるセマンティックアライメントをさらに強制する。
MusicEval Track-1データセットでは、WhisQがベースラインよりも大幅に改善されている。
アブレーション研究では、最適なトランスポート正則化が最大のパフォーマンス向上(10% SRCCの改善)をもたらし、テキストから音楽への評価において、明示的なクロスモーダルアライメントの重要性が示されている。
関連論文リスト
- SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning [21.36638095182274]
強化学習は、大きな言語モデル(LLM)の推論能力を「答える前に考える」よう促すことによって、強化することができる。
明示的で構造化された推論とカリキュラム学習は、音声言語理解を大幅に強化することを示す。
論文 参考訳(メタデータ) (2025-04-22T13:41:26Z) - Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR [36.250914527327005]
事前訓練された言語モデルから音響モデルに言語知識を移すことにより,音声認識の性能を大幅に向上させることが示されている。
ASRのための時間順序保存OT(TOT)に基づくクロスモーダルアライメント・アンド・ナレッジ・トランスファー(CAKT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T19:11:15Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。