論文の概要: DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing
- arxiv url: http://arxiv.org/abs/2601.09609v1
- Date: Wed, 14 Jan 2026 16:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.470185
- Title: DPWriter: Reinforcement Learning with Diverse Planning Branching for Creative Writing
- Title(参考訳): DPWriter: 創造的執筆のための多言語計画分岐による強化学習
- Authors: Qian Cao, Yahui Liu, Wei Bi, Yi Zhao, Ruihua Song, Xiting Wang, Ruiming Tang, Guorui Zhou, Han Li,
- Abstract要約: 強化学習(RL)に基づく大規模言語モデル(LLM)の強化は、しばしば出力の多様性を低下させる。
本稿では,半構造化長鎖(CoT)を中心に構成されたRLフレームワークを提案する。
本稿では,多様性の多様性に基づいて,計画段階での分岐を戦略的に導入する横計画分岐手法を提案する。
- 参考スコア(独自算出の注目度): 78.70918589095639
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL)-based enhancement of large language models (LLMs) often leads to reduced output diversity, undermining their utility in open-ended tasks like creative writing. Current methods lack explicit mechanisms for guiding diverse exploration and instead prioritize optimization efficiency and performance over diversity. This paper proposes an RL framework structured around a semi-structured long Chain-of-Thought (CoT), in which the generation process is decomposed into explicitly planned intermediate steps. We introduce a Diverse Planning Branching method that strategically introduces divergence at the planning phase based on diversity variation, alongside a group-aware diversity reward to encourage distinct trajectories. Experimental results on creative writing benchmarks demonstrate that our approach significantly improves output diversity without compromising generation quality, consistently outperforming existing baselines.
- Abstract(参考訳): 強化学習(RL)に基づく大規模言語モデル(LLM)の強化は、しばしば出力の多様性を減らし、創造的な文章作成のようなオープンなタスクにおいてその実用性を損なう。
現在の手法では、多様な探索を導くための明確なメカニズムが欠如しており、代わりに最適化効率と多様性よりも性能を優先している。
本稿では、半構造化長鎖(CoT)を中心に構成されたRLフレームワークを提案し、生成過程を明示的に計画された中間段階に分解する。
本稿では,多様性の多様性に基づく計画段階における分散を戦略的に導入する多角的計画分岐手法と,異なる軌跡を奨励するためのグループ意識の多様性報酬を導入する。
提案手法は, 生成品質を損なうことなく, 出力の多様性を著しく向上させ, 既存のベースラインを一貫して上回ることを示す。
関連論文リスト
- DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO [50.89703227426486]
強化学習(RL)は、同一グループ内で生成された画像の相対的性能を比較することにより、画像生成品質を著しく向上させる。
トレーニングの後半段階では、モデルは創造性と視覚的多様性を欠いた均質化されたアウトプットを生成する傾向にある。
この問題は、報酬モデリングとジェネレーションダイナミクスの両方の観点から分析することができる。
論文 参考訳(メタデータ) (2025-12-25T05:37:37Z) - A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。
既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。
本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T03:59:51Z) - Post-training Large Language Models for Diverse High-Quality Responses [32.92680825196664]
強化学習 (Reinforcement Learning, RL) は,大規模言語モデル (LLM) の訓練後に一般的な手法として登場した。
決定点プロセス(DPP)に基づくDQO(Diversity Quality Optimization)という新しいトレーニング手法を提案する。
提案手法では,各プロンプトに対して応答群をサンプリングし,次にカーネルベースの類似度行列の行列式を用いて,これらの応答の埋め込みによって分散される体積として多様性を測定する。
論文 参考訳(メタデータ) (2025-09-05T03:47:06Z) - Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-02T17:38:47Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Modifying Large Language Model Post-Training for Diverse Creative Writing [12.872333448726595]
創造的な文章生成において、出力の多様性と品質の両方を促進するためのポストトレーニングアプローチについて検討する。
私たちの中核となる考え方は、希少な高品質なインスタンスからの学習を容易にするためのトレーニング目標の逸脱を含めることです。
8Bパラメータの最良のモデルは、最高の命令チューニングモデルに似た出力品質を持ちながら、人間の作成したデータセットとしてオンパー多様性を達成することができる。
論文 参考訳(メタデータ) (2025-03-21T13:21:45Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。