論文の概要: POLARIS: Guiding Small Models to Write Long Stories
- arxiv url: http://arxiv.org/abs/2606.04095v1
- Date: Tue, 02 Jun 2026 18:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.302269
- Title: POLARIS: Guiding Small Models to Write Long Stories
- Title(参考訳): POLARIS: 長いストーリーを書くための小さなモデル
- Authors: Rishanth Rajendhran, Jenna Russell, Mohit Iyyer, John Frederick Wieting,
- Abstract要約: 小さなオープンウェイトモデルは、長文のクリエイティブな執筆に苦労します。
本稿では,2つの重要な成分を持つ低コンプットGRPO法であるPOLARISについて述べる。
盲目の人間による評価では、POLARIS-9BがQwen3.5-9Bのベースより好まれ、Qwen3.5-27Bと同等であることが確認されている。
- 参考スコア(独自算出の注目度): 23.125502206514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small open-weight models struggle at long-form creative writing: their generated stories either fall far short of the requested length, or their quality significantly degrades as length increases, especially when compared to frontier models. We present POLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting), a lower-compute GRPO recipe with two key ingredients: a frontier LLM judge with a structured Story Quality rubric as the online reward, and human-reference injection (HRI), where a teacher-forced human-written story serves as a high-reward anchor within each GRPO group. By applying our training recipe to Qwen3.5-9B, using a dataset of approximately 1.4K prompt-story pairs derived from 100 short-story anthologies and 4 A100 GPUs, we obtain POLARIS-9B. Across five benchmarks spanning in-distribution and out-of-distribution prompts and rubrics, POLARIS-9B is competitive with much larger open-weight models while following length instructions more closely. A blinded human evaluation confirms that POLARIS-9B is preferred to the base Qwen3.5-9B and on par with Qwen3.5-27B. Despite training only on stories up to 4k words, POLARIS-9B preserves quality on prompts requesting stories up to 3 times the training length, a regime where most open-weight models degrade substantially in quality, length adherence, or both. More broadly, our results suggest that length generalization is a meaningful stress test for creative-writing models and a useful lens for distinguishing otherwise close models.
- Abstract(参考訳): 小さなオープンウェイトモデルは、長文の創造的記述に苦慮する: 生成されたストーリーは要求された長さよりはるかに低いか、または、特にフロンティアモデルと比較して、長さが増加するにつれて品質が著しく低下する。
提案するPOLARIS(Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting)は,構造化されたStory Quality Ruric をオンライン報酬とするフロンティア LLM judge と,教師力によるヒューマンストーリーが各GRPOグループ内のハイリワードアンカーとして機能する Human-Reference Injection (HRI) の2つの重要な要素を持つ低コンプリートGRPOレシピである。
トレーニングレシピをQwen3.5-9Bに適用し、100の短編集アンソロジーと4のA100 GPUから約1.4Kのプロンプトストーリーペアのデータセットを用いて、POLARIS-9Bを得る。
ディストリビューションとアウト・オブ・ディストリビューションのプロンプトとルーブリックにまたがる5つのベンチマークで、POLARIS-9Bはもっと大きなオープンウェイトモデルと競合し、長さの指示に従う。
盲目の人間による評価では、POLARIS-9BがQwen3.5-9Bのベースより好まれ、Qwen3.5-27Bと同等であることが確認されている。
POLARIS-9Bは、最大4kワードまでのストーリーのみのトレーニングにもかかわらず、トレーニング長の最大3倍のストーリーを要求するプロンプトの品質を保っている。
より広範に、我々の結果は長さ一般化が創造的記述モデルにとって有意義なストレステストであり、他の近接モデルと区別するための有用なレンズであることを示唆している。
関連論文リスト
- Capturing Classic Authorial Style in Long-Form Story Generation with GRPO Fine-Tuning [6.996005233500916]
グループ相対的ポリシー最適化を用いたスタイル条件付きストーリー生成のためのトレーニングフレームワークを提案する。
スタイル報酬は、著者認証信号を用いた微調整文変換器から導出される。
我々は、19世紀の著名なアメリカの作家マーク・トウェイン(Mark Twain)によるフィクションを使った実験を行い、ザ・アドベンチャーズ・オブ・ハックルベリー・フィン(The Adventures of Huckleberry Finn)を参考にしている。
論文 参考訳(メタデータ) (2025-12-05T14:29:27Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing [4.9387864960037495]
LitBenchは、最初の標準化されたベンチマークと、クリエイティブな書き込み検証のためのペアデータセットである。
LitBenchを用いてゼロショットLCMの審査員をベンチマークし、(ii)Bradley Terryを訓練し、生成報酬モデルを作成し、(iii)オンライン人間研究を行う。
我々のベンチマークでは、Claude-3.7-Sonnetが最強のオフ・ザ・シェルフ判事であり、人間の好みと一致している。
論文 参考訳(メタデータ) (2025-07-01T14:10:36Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models [0.0]
提案するCOS(M+O)Sは,オープンエンドプロット開発のためのシステム2にインスパイアされたフレームワークである。
ストーリー拡張の可能性の広大な空間を探求し、短いストーリータスクにおいて70Bモデルのプロット品質にアプローチする。
67%-77%がCOS(M+O)Sの低い値よりも高い値を示した。
論文 参考訳(メタデータ) (2025-01-28T17:44:04Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。