論文の概要: Capturing Classic Authorial Style in Long-Form Story Generation with GRPO Fine-Tuning
- arxiv url: http://arxiv.org/abs/2512.05747v1
- Date: Fri, 05 Dec 2025 14:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.059029
- Title: Capturing Classic Authorial Style in Long-Form Story Generation with GRPO Fine-Tuning
- Title(参考訳): GRPOファインチューニングによるロングフォームストーリー生成における古典的オーソリティスタイルのキャプチャ
- Authors: Jinlong Liu, Mohammed Bahja, Venelin Kovatchev, Mark Lee,
- Abstract要約: グループ相対的ポリシー最適化を用いたスタイル条件付きストーリー生成のためのトレーニングフレームワークを提案する。
スタイル報酬は、著者認証信号を用いた微調整文変換器から導出される。
我々は、19世紀の著名なアメリカの作家マーク・トウェイン(Mark Twain)によるフィクションを使った実験を行い、ザ・アドベンチャーズ・オブ・ハックルベリー・フィン(The Adventures of Huckleberry Finn)を参考にしている。
- 参考スコア(独自算出の注目度): 6.996005233500916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) show impressive performance in open-ended story generation, but fine-grained stylistic control remains limited. Existing methods often rely on shallow cues (e.g., names or topics) to simulate authorial style, without robust evaluation. In this work, we present a training framework for style-conditioned story generation using Group Relative Policy Optimization (GRPO) and a custom multi-reward setup. The style reward is derived from a fine-tuned sentence transformer using authorship verification (AV) signals, combined with content and completeness scores to stabilize long-form narrative generation. We conduct experiments using fiction by Mark Twain, a prominent 19th-century American author, with The Adventures of Huckleberry Finn serving as the reference style exemplar. Our 8B model outperforms larger baselines such as GPT-4o and Claude Sonnet 4 in AV-style metrics, achieving a style score of 0.628 and competitive content quality. Results demonstrate the feasibility of agentic stylistic generation with moderate model size and task-specific training. While the output is clearly style-aligned, narrative completeness remains a challenge, indicating future work is needed to better model global coherence and story resolution.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、オープンエンドストーリー生成における印象的な性能を示しているが、きめ細かい構造制御は依然として限られている。
既存の手法は、しばしば、厳密な評価なしに、著者のスタイルをシミュレートするために浅い手がかり(名前やトピックなど)に依存している。
本稿では,GRPO(Group Relative Policy Optimization)とカスタムマルチリワード設定を用いた,スタイル条件付きストーリー生成のためのトレーニングフレームワークを提案する。
スタイル報酬は、オーサシップ検証(AV)信号を用いた微調整文変換器から導出され、内容と完全性スコアが組み合わされて、長文の物語生成を安定化させる。
我々は、19世紀の著名なアメリカの作家マーク・トウェイン(Mark Twain)によるフィクションを使った実験を行い、ザ・アドベンチャーズ・オブ・ハックルベリー・フィン(The Adventures of Huckleberry Finn)を参考にしている。
我々の8Bモデルは、GPT-4oやClaude Sonnet 4のようなより大きなベースラインをAVスタイルのメトリクスで上回り、0.628のスタイルスコアと競争性のあるコンテンツ品質を達成する。
その結果,適度なモデルサイズとタスク特化学習によるエージェント型スタイリスティック生成の実現可能性を示した。
アウトプットは明らかにスタイルに沿ったものだが、物語の完全性は依然として課題であり、グローバルな一貫性とストーリー解決をより良くモデル化するためには、今後の作業が必要であることを示している。
関連論文リスト
- STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives [82.19488717416351]
本稿では,高品質でマルチシーンなストーリーフレームを生成するための統合フレームワークであるStoryAnchorsを紹介する。
StoryAnchorsは、時間的一貫性を確保するために、過去と将来の両方のコンテキストを統合する双方向のストーリージェネレータを使用している。
また、マルチイベントストーリーフレームラベリングとプログレッシブストーリーフレームトレーニングを統合し、モデルが包括的な物語の流れとイベントレベルのダイナミクスの両方をキャプチャできるようにする。
論文 参考訳(メタデータ) (2025-05-13T08:48:10Z) - SAG: Style-Aligned Article Generation via Model Collaboration [6.5673543772901475]
大規模言語モデル(LLM)は、パーソナライズされたスタイリッシュなコンテンツ生成に対する需要を増大させている。
本稿では, LLM と SLM の長所を利用した新しい協調学習フレームワークを提案する。
GPT-4と比較すると,ROUGE-Lでは0.78,BLEU-4では0.55の改善が得られた。
論文 参考訳(メタデータ) (2024-10-04T04:24:42Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - Audience-Centric Natural Language Generation via Style Infusion [5.6732899077715375]
本稿では,事前学習された言語生成モデルにおける聴衆のスタイル的嗜好に影響を及ぼす,新しいスタイル注入の課題を提案する。
限定的な人間の判断を利用して、スタイル分析モデルをブートストラップし、シードセットの判断を強化する。
我々の注入アプローチは、ジェネリックテキストプロンプトを用いた魅力的なスタイル化された例を生成することができる。
論文 参考訳(メタデータ) (2023-01-24T19:57:50Z) - StyleFlow: Disentangle Latent Representations via Normalizing Flow for
Unsupervised Text Style Transfer [5.439842512864442]
スタイル転送は、その内容を保持しながら文のスタイルを変更することを目的としている。
本稿では,コンテンツ保存性を高めるために,新しいアンタングル型スタイル転送モデルであるStyleFlowを提案する。
論文 参考訳(メタデータ) (2022-12-19T17:59:18Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Stylized Story Generation with Style-Guided Planning [38.791298336259146]
そこで本稿では,先行する文脈を条件として,新たなタスク,スタイル化されたストーリージェネレーション,すなわちスペクティフィドスタイルでストーリーを生成することを提案する。
我々のモデルは、ROCStoriesデータセットに基づいて、エモオプション駆動またはイベント駆動のストーリーを制御できる。
論文 参考訳(メタデータ) (2021-05-18T15:55:38Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。