論文の概要: Rewarding Creativity: A Human-Aligned Generative Reward Model for Reinforcement Learning in Storytelling
- arxiv url: http://arxiv.org/abs/2601.07149v1
- Date: Mon, 12 Jan 2026 02:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.187071
- Title: Rewarding Creativity: A Human-Aligned Generative Reward Model for Reinforcement Learning in Storytelling
- Title(参考訳): Rewarding Creativity:ストーリーテリングにおける強化学習のためのヒューマンアライン・ジェネレーション・リワードモデル
- Authors: Zhaoyan Li, Hang Lei, Yujia Wang, Lanbo Liu, Hao Liu, Liang Yu,
- Abstract要約: 強化学習(RL)は、有望な解決策を提供するが、2つの重要な障害に直面している。
本稿では,両課題を体系的に解決するReinforcement Learning for Creative Storytellingフレームワークを紹介する。
実験により、GenRMは人間の創造性判断と68%の整合性を達成し、RLCSはジェミニ2.5-Proを含む強いベースラインを大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 18.393625866829925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) can generate fluent text, producing high-quality creative stories remains challenging. Reinforcement Learning (RL) offers a promising solution but faces two critical obstacles: designing reliable reward signals for subjective storytelling quality and mitigating training instability. This paper introduces the Reinforcement Learning for Creative Storytelling (RLCS) framework to systematically address both challenges. First, we develop a Generative Reward Model (GenRM) that provides multi-dimensional analysis and explicit reasoning about story preferences, trained through supervised fine-tuning on demonstrations with reasoning chains distilled from strong teacher models, followed by GRPO-based refinement on expanded preference data. Second, we introduce an entropy-based reward shaping strategy that dynamically prioritizes learning on confident errors and uncertain correct predictions, preventing overfitting on already-mastered patterns. Experiments demonstrate that GenRM achieves 68\% alignment with human creativity judgments, and RLCS significantly outperforms strong baselines including Gemini-2.5-Pro in overall story quality. This work provides a practical pipeline for applying RL to creative domains, effectively navigating the dual challenges of reward modeling and training stability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、高品質な創造的なストーリーを生み出すことは依然として困難である。
強化学習(RL)は、有望な解決策を提供するが、2つの重要な障害に直面している。
本稿では,創造的ストーリーテリングのための強化学習(Reinforcement Learning for Creative Storytelling, RLCS)フレームワークについて述べる。
まず,多次元的分析と物語嗜好の明示的推論を提供するジェネラティブ・リワード・モデル(GenRM)を開発し,教師モデルから抽出した推論鎖を用いた実演の微調整と,拡張された嗜好データに基づくGRPOに基づく改良を行った。
第二に、エントロピーに基づく報酬形成戦略を導入し、自信のある誤りや不確実な予測に基づいて学習を動的に優先順位付けし、既にマスターされたパターンの過度な適合を防止する。
実験により、GenRMは人間の創造性判断と68倍のアライメントを達成し、RLCSはGemini-2.5-Proを含む強いベースラインを大幅に上回っていることが示された。
この研究は、クリエイティブドメインにRLを適用するための実用的なパイプラインを提供し、報酬モデリングとトレーニング安定性という2つの課題を効果的にナビゲートする。
関連論文リスト
- Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.60378227969643]
より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-10-28T11:37:01Z) - Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-02T17:38:47Z) - Igniting Creative Writing in Small Language Models: LLM-as-a-Judge versus Multi-Agent Refined Rewards [33.911792632604424]
本稿では、AIフィードバックフレームワークからの強化学習における2つのAI駆動報酬戦略について検討する。
最初の戦略は、新しいマルチエージェント・リジェクション・サンプリング・フレームワークによって算出された高品質な嗜好データに基づいて訓練されたRMを用いる。
第2の戦略は原則誘導型LPM-as-a-Judgeを利用しており、その報酬関数は敵の訓練スキームによって最適化される。
論文 参考訳(メタデータ) (2025-08-29T10:00:55Z) - OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling [29.818409458662344]
LlamaやQwenのような異なる言語モデルファミリーは、強化学習(RL)による後訓練中に異なる行動を示す
本研究では,MegaMath-Web-Proのような高品質な数学的コーパスがベースモデルとRL性能の両方を著しく改善することを明らかにする。
2段階の中間訓練戦略であるStable-then-Decayを導入し、ベースモデルを学習率を一定とした200Bトークンでトレーニングし、その後CoTに着目した3つのブランチで20Bトークンを学習速度を劣化させた。
論文 参考訳(メタデータ) (2025-06-25T14:58:13Z) - Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。