論文の概要: Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Generation
- arxiv url: http://arxiv.org/abs/2601.17226v1
- Date: Fri, 23 Jan 2026 23:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.431432
- Title: Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Generation
- Title(参考訳): Retell, Reward, Repeat: Reinforcement Learning for Narrative Theory-Informed Story Generation
- Authors: David Y. Liu, Xanthe Muston, Aditya Joshi, Sebastian Sequoiah-Grayson,
- Abstract要約: 我々は、望ましいASG品質を定義する原則を確立するために、トドロフのナラティブ平衡理論を使用する。
7Bおよび14B LLM-as-judgeモデルに対して,アノテータとのアライメントテストの原則を提示する。
我々は、d-RLAIFが教師付き微調整(SFT)に代わる実行可能な代替手段であることを示した。
- 参考スコア(独自算出の注目度): 5.151910664667141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the subjective nature of storytelling, past works on automatic story generation (ASG) have relied on limited ground truths for training and evaluation. In this work, we explore reinforcement learning (d-RLAIF) as a post-training alternative to supervised fine-tuning (SFT). We first apply Todorov's Theory of Narrative Equilibrium to establish principles that define desirable ASG qualities. We prompt 7B and 14B LLM-as-judge models with our principles to test alignment with human annotators and provide reward signals during d-RLAIF. We use Gemini-3-Flash to evaluate the output of our post-trained models and compare them to human-written stories from the TimeTravel dataset. We show that d-RLAIF offers a viable alternative to supervised fine-tuning (SFT)--producing stories that are more diverse and aligned with human narrative conventions. Our paper demonstrates the promise of reinforcement learning for linguistically grounded post-training for subjective tasks such as ASG.
- Abstract(参考訳): ストーリーテリングの主観性にもかかわらず、自動ストーリー生成(ASG)に関する過去の研究は、訓練と評価のために限られた真実に依存してきた。
本研究では,教師付き微調整(SFT)の代替として強化学習(d-RLAIF)について検討する。
まず、Todorov氏のナラティブ平衡理論を適用して、望ましいASGの品質を定義する原則を確立する。
我々は7Bおよび14B LLM-as-judgeモデルに、人間のアノテータとのアライメントをテストし、d-RLAIF中に報酬信号を提供する原則を付与する。
我々は、Gemini-3-Flashを使用して、トレーニング後のモデルの出力を評価し、TimeTravelデータセットから書き込んだストーリーと比較する。
D-RLAIFは、より多様性があり、人間の物語の慣習と整合した、教師付き微調整(SFT)ストーリーの代替として実行可能なものであることを示す。
本稿では,ASGのような主観的課題に対する言語学習後学習における強化学習の可能性を実証する。
関連論文リスト
- Living the Novel: A System for Generating Self-Training Timeline-Aware Conversational Agents from Novels [50.43968216132018]
文芸作品が没入的で多文字の会話体験に変換されるエンド・ツー・エンドシステムを提案する。
このシステムはLLM駆動文字の2つの基本的な課題を解決するために設計されている。
論文 参考訳(メタデータ) (2025-12-08T11:57:46Z) - NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models [8.6767620170781]
ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。
多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。
我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
論文 参考訳(メタデータ) (2025-11-09T17:41:11Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [63.54377402784965]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構から, シミュレータフリー, 省力両面において, 新たな観察・指導ペアを得ることができた。
離散環境(R2R,REVERIE,R4Rデータセット)と連続環境(R2R-CEデータセット)の両方における実験は,本手法の優れた性能と優れた一般化能力を示している。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition [8.058451580903123]
人間の類似性の観点から,物語の質を計測する新しい手法を提案する。
次に、この手法を用いて、複数のモデルによって生成されたストーリーを評価する。
TAPMのビジュアルコンポーネントと言語コンポーネントをアップグレードすると、競合するパフォーマンスをもたらすモデルが得られる。
論文 参考訳(メタデータ) (2024-07-05T14:48:15Z) - Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal
Storyteller [21.953766228135827]
我々はLLaMSと呼ばれる新しいパイプラインを提案し、マルチモーダルな人間レベルのストーリーを生成する。
まず、実写コンテンツ表現を強化するために、シーケンスデータ自動強調戦略を用いる。
次に,SQ-Adatpterモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T04:07:00Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。