論文の概要: LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.18841v1
- Date: Mon, 23 Jun 2025 16:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.093041
- Title: LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning
- Title(参考訳): LongWriter-Zero:強化学習による超長文生成の習得
- Authors: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li,
- Abstract要約: 本稿では、強化学習(RL)を利用したインセンティブベースのアプローチを提案し、超長大で高品質なテキスト生成能力の出現を促進する。
Qwen2.5-32BからトレーニングされたLongWriter-Zeroモデルは、長文処理において従来のSFTメソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 34.723917246316205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-long generation by large language models (LLMs) is a widely demanded scenario, yet it remains a significant challenge due to their maximum generation length limit and overall quality degradation as sequence length increases. Previous approaches, exemplified by LongWriter, typically rely on ''teaching'', which involves supervised fine-tuning (SFT) on synthetic long-form outputs. However, this strategy heavily depends on synthetic SFT data, which is difficult and costly to construct, often lacks coherence and consistency, and tends to be overly artificial and structurally monotonous. In this work, we propose an incentivization-based approach that, starting entirely from scratch and without relying on any annotated or synthetic data, leverages reinforcement learning (RL) to foster the emergence of ultra-long, high-quality text generation capabilities in LLMs. We perform RL training starting from a base model, similar to R1-Zero, guiding it to engage in reasoning that facilitates planning and refinement during the writing process. To support this, we employ specialized reward models that steer the LLM towards improved length control, writing quality, and structural formatting. Experimental evaluations show that our LongWriter-Zero model, trained from Qwen2.5-32B, consistently outperforms traditional SFT methods on long-form writing tasks, achieving state-of-the-art results across all metrics on WritingBench and Arena-Write, and even surpassing 100B+ models such as DeepSeek R1 and Qwen3-235B. We open-source our data and model checkpoints under https://huggingface.co/THU-KEG/LongWriter-Zero-32B
- Abstract(参考訳): 大規模言語モデル(LLM)による超長期生成は広く要求されているシナリオである。
従来のアプローチは、LongWriterによって例示されているが、一般的に'teaching'に依存しており、これは合成長文出力の教師付き微調整(SFT)を伴う。
しかし、この戦略は構築が困難でコストがかかる合成SFTデータに大きく依存しており、コヒーレンスと一貫性が欠如しており、過剰に人工的で構造的に単調である傾向がある。
本研究では,ゼロから始まり,注釈や合成データに依存しないインセンティブベースのアプローチを提案し,LLMにおける超長大かつ高品質なテキスト生成能力の出現を促進するために強化学習(RL)を活用する。
我々はR1-Zeroと同様のベースモデルからRLトレーニングを行い、書き込みプロセスの計画と洗練を容易にする推論を指導する。
これを支援するために,LLM を改良した長さ制御,書込み品質,構造的フォーマッティングに活用する特化報酬モデルを採用した。
Qwen2.5-32BからトレーニングしたLongWriter-Zeroモデルは、ロングフォームな書き込みタスクにおいて従来のSFTメソッドよりも一貫して優れており、WriteingBenchやArena-Writeのすべてのメトリクスで最先端の結果が得られ、DeepSeek R1やQwen3-235Bといった100B以上のモデルを超えています。
私たちは、https://huggingface.co/THU-KEG/LongWriter-Zero-32Bの下で、データとモデルチェックポイントをオープンソース化しました。
関連論文リスト
- Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models [34.723917246316205]
SuperWriter-Agentは、長文生成の品質と一貫性を高めるために設計されたフレームワークである。
この枠組みに基づき、7B SuperWriter-LMをトレーニングするための教師付き微調整データセットを構築した。
様々なベンチマークで実証された結果は、SuperWriter-LMが最先端のパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2025-06-04T17:27:42Z) - Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels [3.537369004801589]
Too Long, Didn't Modelベンチマークをリリースしました。
プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。
テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
論文 参考訳(メタデータ) (2025-05-20T21:21:09Z) - LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information [76.26257306813899]
学術論文やリポジトリレベルのコード生成には,長文生成が不可欠だ。
選好学習と結果管理を併用する既存の手法は、拡張された文脈に対して詳細なフィードバックを提供するのに失敗することが多い。
プロセスの監督を取り入れた長文生成の促進を提案する。
論文 参考訳(メタデータ) (2025-02-04T08:25:17Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs [57.23637303451716]
LLM(Long context large language model)は、最大10000のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労する。
我々は,超長期タスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介する。
出力長が2kから32kのSFTデータを含むデータセットであるLongWriter-6kを構築した。
論文 参考訳(メタデータ) (2024-08-13T17:46:12Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。