論文の概要: RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing
- arxiv url: http://arxiv.org/abs/2508.18642v1
- Date: Tue, 26 Aug 2025 03:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.662359
- Title: RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing
- Title(参考訳): RLMR: 創造的記述のための混合リワードによる強化学習
- Authors: Jianxing Liao, Tian Zhang, Xiao Feng, Yusong Zhang, Rui Yang, Haorui Wang, Bosi Wen, Ziying Wang, Runzhi Shi,
- Abstract要約: Mixed Rewards (RLMR) を用いた強化学習
主観的書字品質を評価する書字報酬モデルから動的混合報酬システムを用いたRLMRを提案する。
8Bから72Bパラメータの多種多様なモデルファミリーを対象とした自動的・手動評価を行った。
- 参考スコア(独自算出の注目度): 15.11786299709699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are extensively utilized in creative writing applications. Creative writing requires a balance between subjective writing quality (e.g., literariness and emotional expression) and objective constraint following (e.g., format requirements and word limits). Existing reinforcement learning methods struggle to balance these two aspects: single reward strategies fail to improve both abilities simultaneously, while fixed-weight mixed-reward methods lack the ability to adapt to different writing scenarios. To address this problem, we propose Reinforcement Learning with Mixed Rewards (RLMR), utilizing a dynamically mixed reward system from a writing reward model evaluating subjective writing quality and a constraint verification model assessing objective constraint following. The constraint following reward weight is adjusted dynamically according to the writing quality within sampled groups, ensuring that samples violating constraints get negative advantage in GRPO and thus penalized during training, which is the key innovation of this proposed method. We conduct automated and manual evaluations across diverse model families from 8B to 72B parameters. Additionally, we construct a real-world writing benchmark named WriteEval for comprehensive evaluation. Results illustrate that our method achieves consistent improvements in both instruction following (IFEval from 83.36\% to 86.65\%) and writing quality (72.75\% win rate in manual expert pairwise evaluations on WriteEval). To the best of our knowledge, RLMR is the first work to combine subjective preferences with objective verification in online RL training, providing an effective solution for multi-dimensional creative writing optimization.
- Abstract(参考訳): 大規模な言語モデルは、クリエイティブな記述アプリケーションで広く利用されている。
創造的文章は主観的な文章の質(例えば、リテラシティと感情表現)と客観的制約(例えば、形式要件と単語制限)のバランスを必要とする。
既存の強化学習手法は、これらの2つの側面のバランスをとるのに苦労する: 単一報酬戦略は、両方の能力を同時に改善することができず、固定重混合回帰法は、異なる記述シナリオに適応する能力に欠ける。
この問題に対処するために、主観的な書字品質を評価する書字報酬モデルと、目的的制約の追従を評価する制約検証モデルから、動的に混合報酬システムを利用するRLMR(Reinforcement Learning with Mixed Rewards)を提案する。
報奨重みの制約は, サンプル群内での筆記品質に応じて動的に調整され, サンプル違反制約がGRPOにおいて負の優位性を持ち, トレーニング中にペナル化されることを保証し, 提案手法の重要な革新である。
8Bから72Bパラメータの多種多様なモデルファミリーを対象とした自動的および手動評価を行った。
さらに,総合的な評価のためにWriteEvalという実世界の筆記ベンチマークを構築した。
その結果,本手法は, IFEvalを83.36\%から86.65\%に改善し, 書き込み品質を72.75\%に向上させることができた。
我々の知る限り、RLMRは、オンラインRLトレーニングにおいて主観的選好と客観的検証を組み合わせる最初の研究であり、多次元クリエイティブな書き込み最適化のための効果的なソリューションを提供する。
関連論文リスト
- CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。
しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。
独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。
人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文 参考訳(メタデータ) (2025-08-12T16:49:18Z) - Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback [57.200668979963694]
我々は1,300のストーリーからなる新しいテストセットを提示し、故意に執筆問題を紹介した。
本研究では,この作業においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
論文 参考訳(メタデータ) (2025-07-21T18:56:50Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach [32.654673913638426]
本稿では,創造性を製品として評価するTorance Test of Creative Writing (TTCW)に基づく自動評価手法を提案する。
提案手法は、高品質な参照テキストに対して生成されたクリエイティブテキストをスコアリングする参照ベースのLikertスタイルのアプローチを用いる。
論文 参考訳(メタデータ) (2025-04-22T10:52:23Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。