論文の概要: Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation
- arxiv url: http://arxiv.org/abs/2508.05011v1
- Date: Thu, 07 Aug 2025 03:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.705647
- Title: Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation
- Title(参考訳): 幻覚のない音楽に向けて:信頼性のある楽曲生成のための強化学習選好最適化フレームワーク
- Authors: Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu,
- Abstract要約: 幻覚制御のための好み最適化を利用した新しい強化学習フレームワークを提案する。
我々は,音素誤り率計算によって構築された頑健な幻覚選好データセットを開発した。
フレームワーク内に3つの異なる選好最適化戦略を実装し,評価する。
- 参考スコア(独自算出の注目度): 44.10370590821082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in audio-based generative language models have accelerated AI-driven lyric-to-song generation. However, these models frequently suffer from content hallucination, producing outputs misaligned with the input lyrics and undermining musical coherence. Current supervised fine-tuning (SFT) approaches, limited by passive label-fitting, exhibit constrained self-improvement and poor hallucination mitigation. To address this core challenge, we propose a novel reinforcement learning (RL) framework leveraging preference optimization for hallucination control. Our key contributions include: (1) Developing a robust hallucination preference dataset constructed via phoneme error rate (PER) computation and rule-based filtering to capture alignment with human expectations; (2) Implementing and evaluating three distinct preference optimization strategies within the RL framework: Direct Preference Optimization (DPO), Proximal Policy Optimization (PPO), and Group Relative Policy Optimization (GRPO). DPO operates off-policy to enhance positive token likelihood, achieving a significant 7.4% PER reduction. PPO and GRPO employ an on-policy approach, training a PER-based reward model to iteratively optimize sequences via reward maximization and KL-regularization, yielding PER reductions of 4.9% and 4.7%, respectively. Comprehensive objective and subjective evaluations confirm that our methods effectively suppress hallucinations while preserving musical quality. Crucially, this work presents a systematic, RL-based solution to hallucination control in lyric-to-song generation. The framework's transferability also unlocks potential for music style adherence and musicality enhancement, opening new avenues for future generative song research.
- Abstract(参考訳): 音声に基づく生成言語モデルの最近の進歩は、AI駆動の歌詞合成を加速させている。
しかし、これらのモデルは、しばしば内容の幻覚に悩まされ、入力された歌詞と不一致な出力を生成し、音楽的コヒーレンスを損なう。
現在のSFTアプローチは、パッシブラベル適合によって制限され、制約された自己改善と幻覚の緩和を示す。
この課題に対処するために,幻覚制御の好み最適化を利用した新しい強化学習(RL)フレームワークを提案する。
主な貢献は,(1) 音素誤り率(PER)計算と規則に基づくフィルタリングを用いて構築された堅牢な幻覚選好データセットの構築,(2) 直接選好最適化(DPO), PPO, グループ相対政策最適化(GRPO)の3つの異なる選好選好最適化戦略の実装と評価である。
DPOは、正のトークン可能性を高めるために、政治外で活動し、7.4%のPER還元を達成する。
PPOとGRPOは、PERベースの報酬モデルをトレーニングし、報酬の最大化とKL正規化によってシーケンスを反復的に最適化し、PERの4.9%と4.7%の削減を達成している。
本手法は音楽の質を保ちながら幻覚を効果的に抑制することを確認する。
重要なこととして、この研究は、歌詞対歌生成における幻覚制御のための体系的なRLベースのソリューションを提示している。
フレームワークの転送性は、音楽スタイルの定着と音楽性の向上の可能性を解き明かし、将来の生成的楽曲研究のための新たな道を開く。
関連論文リスト
- Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - PEO: Improving Bi-Factorial Preference Alignment with Post-Training Policy Extrapolation [5.347428263669927]
ポストトレーニング外挿最適化(PEO)は、二要素アライメントのための新しく効率的なフレームワークである。
PEOは3相パイプラインを利用して、1つのトレーニングパスで最適なポリシーのファミリーを生成する。
論文 参考訳(メタデータ) (2025-03-03T06:56:39Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Systematic Reward Gap Optimization for Mitigating VLM Hallucinations [34.71750379630014]
本稿では,報酬ギャップ構成の体系的最適化を目的とした新しいフレームワークであるトピックレベルの参照書き換え(TPR)を紹介する。
TPRは、詳細なセマンティック詳細をトピックレベルに制御し、高度なデータキュレーション戦略を可能にする。
ObjectHal-Benchでは幻覚を最大93%減少させ、堅牢で費用対効果の高いVLMアライメントに対して優れたデータ効率を示す。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。