論文の概要: Measuring Information Distortion in Hierarchical Ultra long Novel Generation:The Optimal Expansion Ratio
- arxiv url: http://arxiv.org/abs/2505.12572v1
- Date: Sun, 18 May 2025 23:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.314089
- Title: Measuring Information Distortion in Hierarchical Ultra long Novel Generation:The Optimal Expansion Ratio
- Title(参考訳): 階層型超長新世代における情報歪みの測定:最適拡張比
- Authors: Hanwen Shen, Ting Ying,
- Abstract要約: 高品質な百万語小説を制作するには,人間によるアウトラインがどの程度必要かを検討する。
階層的な2段階生成パイプラインを導入し、情報保存と人的努力のバランスをとる最適なアウトライン長を求める。
本研究は,大規模言語モデルと協調する著者や研究者に対して,実証的な指導を行うものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Writing novels with Large Language Models (LLMs) raises a critical question: how much human-authored outline is necessary to generate high-quality million-word novels? While frameworks such as DOME, Plan&Write, and Long Writer have improved stylistic coherence and logical consistency, they primarily target shorter novels (10k--100k words), leaving ultra-long generation largely unexplored. Drawing on insights from recent text compression methods like LLMZip and LLM2Vec, we conduct an information-theoretic analysis that quantifies distortion occurring when LLMs compress and reconstruct ultra-long novels under varying compression-expansion ratios. We introduce a hierarchical two-stage generation pipeline (outline -> detailed outline -> manuscript) and find an optimal outline length that balances information preservation with human effort. Through extensive experimentation with Chinese novels, we establish that a two-stage hierarchical outline approach significantly reduces semantic distortion compared to single-stage methods. Our findings provide empirically-grounded guidance for authors and researchers collaborating with LLMs to create million-word novels.
- Abstract(参考訳): LLM(Large Language Models)による小説の執筆は、高品質な百万語小説を生み出すのに、どの程度の人間によるアウトラインが必要かという、重要な疑問を提起する。
DOME、Plan&Write、Long Writerといったフレームワークはスタイリスティックなコヒーレンスと論理的な一貫性を改善しているが、それらは主に短い小説(10k-100kワード)をターゲットとしており、ウルトラ・ロング世代はほとんど探索されていない。
LLMZip や LLM2Vec などの最近のテキスト圧縮手法の知見をもとに,LLM が圧縮・膨張比の異なる超長編小説を圧縮・再構成する際に生じる歪みを定量化する情報理論解析を行った。
階層的な2段階生成パイプライン(アウトライン -> 詳細なアウトライン -> 原稿)を導入し,情報保存と人的努力のバランスをとる最適なアウトライン長を求める。
中国小説の広範な実験を通じて,2段階の階層的アウトラインアプローチにより,単段階法に比べて意味の歪みが著しく減少することが確認された。
著者や研究者がLLMと共同で100万ワードの小説を制作する上で,実証的な指導を行うことができた。
関連論文リスト
- Hypernym Mercury: Token Optimization Through Semantic Field Constriction And Reconstruction From Hypernyms. A New Text Compression Method [0.0]
本稿では,新しいテキスト表現方式と,段落の単語レベルのセマンティック圧縮を導入する。
結果が,複数のジャンルやモデルにまたがって,段落レベルでどのように保持されているかを示す。
論文 参考訳(メタデータ) (2025-05-12T20:49:50Z) - Divergent LLM Adoption and Heterogeneous Convergence Paths in Research Writing [0.8046044493355781]
LLM(Large Language Models)は、コンテンツ作成と学術的執筆を変革する。
本研究は,AIによる生成リビジョンが研究原稿に与える影響について検討する。
論文 参考訳(メタデータ) (2025-04-18T11:09:16Z) - A Cognitive Writing Perspective for Constrained Long-Form Text Generation [12.444210620825382]
大きな言語モデル(LLM)は、1回のパスで厳格な要求に従う高品質の長文を生成するのに苦労する。
認知の原則によって動機づけられた私たちは,CagWriterを通じて,人間のような認知書記能力を備えたLLMの実現を目指しています。
本フレームワークは,(1)タスクを分解する階層的計画を実行する計画エージェントと,(2)これらの計画を並列に実行する複数の生成エージェントの2つの主要なモジュールから構成される。
論文 参考訳(メタデータ) (2025-02-18T06:12:14Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Agents' Room: Narrative Generation through Multi-step Collaboration [54.98886593802834]
本稿では,物語の執筆を特殊エージェントが取り組んだサブタスクに分解する,物語理論に触発された世代フレームワークを提案する。
エージェントの部屋は,専門的評価者が好むストーリーをベースラインシステムより生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T15:44:42Z) - Characterizing Prompt Compression Methods for Long Context Inference [36.9745587176401]
長期のコンテキスト推論は、計算とメモリの要求が増大するにつれて、システムレベルでの課題を提示します。
コンテクスト長を削減するためにプロンプトを圧縮するいくつかの方法が提案されている。
我々は、異なるプロンプト圧縮法を包括的に評価し、評価する。
論文 参考訳(メタデータ) (2024-07-11T23:34:32Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Compressing Lengthy Context With UltraGist [22.054232261437186]
長大な文脈の高品質な圧縮を特徴とするUltraGistという手法を提案する。
UltraGistは、幅広いコンテキスト長と圧縮比をサポートするために効果的に学習できるため、圧縮の柔軟性に寄与する。
これにより、トレーニングプロセスのサンプル効率が向上し、トレーニングデータの使用が最大になる。
論文 参考訳(メタデータ) (2024-05-26T17:23:56Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Reinforced Abstractive Summarization with Adaptive Length Controlling [12.793451906532223]
制御可能な要約、特に長さは、いくつかの実用的な応用において重要な問題である。
2段階の抽象的要約モデルを活用するために、textbfAdaptive textbfLength textbfControlling textbfOptimization (textbfALCO)法を提案する。
論文 参考訳(メタデータ) (2021-12-14T16:48:47Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - On Geodesic Distances and Contextual Embedding Compression for Text
Classification [0.0]
メモリ制限のある設定では、より小さなコンテキスト埋め込みを持つことが有利である。
コンテクスト埋め込みデータを多様体に投影し、非線形次元還元技術を用いてこれらの埋め込みを圧縮する効果を検討する。
特に,isomapとpcaの組み合わせを適用した新しい後処理手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T19:30:06Z) - MuSCLE: Multi Sweep Compression of LiDAR using Deep Entropy Models [78.93424358827528]
本稿では,LiDARセンサデータのストレージストリームを削減するための新しい圧縮アルゴリズムを提案する。
本手法は,従来のLiDAR圧縮法よりも接合形状と強度を著しく低減する。
論文 参考訳(メタデータ) (2020-11-15T17:41:14Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。