論文の概要: Measuring Information Distortion in Hierarchical Ultra long Novel Generation:The Optimal Expansion Ratio
- arxiv url: http://arxiv.org/abs/2505.12572v1
- Date: Sun, 18 May 2025 23:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.314089
- Title: Measuring Information Distortion in Hierarchical Ultra long Novel Generation:The Optimal Expansion Ratio
- Title(参考訳): 階層型超長新世代における情報歪みの測定:最適拡張比
- Authors: Hanwen Shen, Ting Ying,
- Abstract要約: 高品質な百万語小説を制作するには,人間によるアウトラインがどの程度必要かを検討する。
階層的な2段階生成パイプラインを導入し、情報保存と人的努力のバランスをとる最適なアウトライン長を求める。
本研究は,大規模言語モデルと協調する著者や研究者に対して,実証的な指導を行うものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Writing novels with Large Language Models (LLMs) raises a critical question: how much human-authored outline is necessary to generate high-quality million-word novels? While frameworks such as DOME, Plan&Write, and Long Writer have improved stylistic coherence and logical consistency, they primarily target shorter novels (10k--100k words), leaving ultra-long generation largely unexplored. Drawing on insights from recent text compression methods like LLMZip and LLM2Vec, we conduct an information-theoretic analysis that quantifies distortion occurring when LLMs compress and reconstruct ultra-long novels under varying compression-expansion ratios. We introduce a hierarchical two-stage generation pipeline (outline -> detailed outline -> manuscript) and find an optimal outline length that balances information preservation with human effort. Through extensive experimentation with Chinese novels, we establish that a two-stage hierarchical outline approach significantly reduces semantic distortion compared to single-stage methods. Our findings provide empirically-grounded guidance for authors and researchers collaborating with LLMs to create million-word novels.
- Abstract(参考訳): LLM(Large Language Models)による小説の執筆は、高品質な百万語小説を生み出すのに、どの程度の人間によるアウトラインが必要かという、重要な疑問を提起する。
DOME、Plan&Write、Long Writerといったフレームワークはスタイリスティックなコヒーレンスと論理的な一貫性を改善しているが、それらは主に短い小説(10k-100kワード)をターゲットとしており、ウルトラ・ロング世代はほとんど探索されていない。
LLMZip や LLM2Vec などの最近のテキスト圧縮手法の知見をもとに,LLM が圧縮・膨張比の異なる超長編小説を圧縮・再構成する際に生じる歪みを定量化する情報理論解析を行った。
階層的な2段階生成パイプライン(アウトライン -> 詳細なアウトライン -> 原稿)を導入し,情報保存と人的努力のバランスをとる最適なアウトライン長を求める。
中国小説の広範な実験を通じて,2段階の階層的アウトラインアプローチにより,単段階法に比べて意味の歪みが著しく減少することが確認された。
著者や研究者がLLMと共同で100万ワードの小説を制作する上で,実証的な指導を行うことができた。
関連論文リスト
- Divergent LLM Adoption and Heterogeneous Convergence Paths in Research Writing [0.8046044493355781]
LLM(Large Language Models)は、コンテンツ作成と学術的執筆を変革する。
本研究は,AIによる生成リビジョンが研究原稿に与える影響について検討する。
論文 参考訳(メタデータ) (2025-04-18T11:09:16Z) - A Cognitive Writing Perspective for Constrained Long-Form Text Generation [12.444210620825382]
大きな言語モデル(LLM)は、1回のパスで厳格な要求に従う高品質の長文を生成するのに苦労する。
認知の原則によって動機づけられた私たちは,CagWriterを通じて,人間のような認知書記能力を備えたLLMの実現を目指しています。
本フレームワークは,(1)タスクを分解する階層的計画を実行する計画エージェントと,(2)これらの計画を並列に実行する複数の生成エージェントの2つの主要なモジュールから構成される。
論文 参考訳(メタデータ) (2025-02-18T06:12:14Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Agents' Room: Narrative Generation through Multi-step Collaboration [54.98886593802834]
本稿では,物語の執筆を特殊エージェントが取り組んだサブタスクに分解する,物語理論に触発された世代フレームワークを提案する。
エージェントの部屋は,専門的評価者が好むストーリーをベースラインシステムより生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T15:44:42Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。