論文の概要: Multi-Metric Preference Alignment for Generative Speech Restoration
- arxiv url: http://arxiv.org/abs/2508.17229v1
- Date: Sun, 24 Aug 2025 07:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.4148
- Title: Multi-Metric Preference Alignment for Generative Speech Restoration
- Title(参考訳): 生成的音声復元のためのマルチメカニカルな選好アライメント
- Authors: Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu,
- Abstract要約: 生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
- 参考スコア(独自算出の注目度): 15.696247605348383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent generative models have significantly advanced speech restoration tasks, yet their training objectives often misalign with human perceptual preferences, resulting in suboptimal quality. While post-training alignment has proven effective in other generative domains like text and image generation, its application to generative speech restoration remains largely under-explored. This work investigates the challenges of applying preference-based post-training to this task, focusing on how to define a robust preference signal and curate high-quality data to avoid reward hacking. To address these challenges, we propose a multi-metric preference alignment strategy. We construct a new dataset, GenSR-Pref, comprising 80K preference pairs, where each chosen sample is unanimously favored by a complementary suite of metrics covering perceptual quality, signal fidelity, content consistency, and timbre preservation. This principled approach ensures a holistic preference signal. Applying Direct Preference Optimization (DPO) with our dataset, we observe consistent and significant performance gains across three diverse generative paradigms: autoregressive models (AR), masked generative models (MGM), and flow-matching models (FM) on various restoration benchmarks, in both objective and subjective evaluations. Ablation studies confirm the superiority of our multi-metric strategy over single-metric approaches in mitigating reward hacking. Furthermore, we demonstrate that our aligned models can serve as powerful ''data annotators'', generating high-quality pseudo-labels to serve as a supervision signal for traditional discriminative models in data-scarce scenarios like singing voice restoration. Demo Page:https://gensr-pref.github.io
- Abstract(参考訳): 最近の生成モデルは、かなり高度な音声復元タスクを持っているが、その訓練目的はしばしば人間の知覚的嗜好と誤認し、最適以下の品質をもたらす。
ポストトレーニングアライメントは、テキストや画像生成などの他の生成領域で有効であることが証明されているが、生成的音声復元への応用は、ほとんど探索されていないままである。
本研究は、この課題に嗜好ベースのポストトレーニングを適用し、堅牢な選好信号を定義し、報酬ハックを避けるために高品質なデータをキュレートする方法に焦点を当てる。
これらの課題に対処するため、我々はマルチメトリックな選好アライメント戦略を提案する。
我々は、80Kの選好ペアからなる新しいデータセットGenSR-Prefを構築し、それぞれのサンプルは、知覚品質、信号の忠実性、コンテンツ整合性、音色保存を含む相補的な指標によって全会一致で好まれる。
この原理的なアプローチは、全体論的選好信号を保証する。
自動回帰モデル(AR)、マスク付き生成モデル(MGM)、各種修復ベンチマークにおけるフローマッチングモデル(FM)の3つの多種多様な生成パラダイムに対して、客観的および主観的評価を行った。
アブレーション研究は、報酬ハッキングを緩和するシングルメトリックアプローチよりも、我々のマルチメトリック戦略の方が優れていることを証明している。
さらに、我々の整列モデルが強力な「データアノテータ」として機能することを示し、歌声の復元のようなデータスカースシナリオにおける従来の識別モデルのための監視信号として、高品質な擬似ラベルを生成する。
Demo Page:https://gensr-pref.github.io
関連論文リスト
- Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future [38.1810626252963]
自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。
本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:25:54Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
データ品質を評価するために,専門性,可読性,推論,清潔さの4つの側面を提案する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、下流タスク性能を3.23倍に改善し、7.2Bパラメータのモデルにスケールする利点がある。
論文 参考訳(メタデータ) (2025-04-19T06:12:33Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation [62.9933120822879]
RMBoostは、新しい合成選好データ生成パラダイムである。
優先ペアが意図的に構築されているため、ラベリングノイズを低減する。
これは4つの異なる報酬モデルのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-22T19:21:55Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。