論文の概要: Beyond Direct Generation: A Decomposed Approach to Well-Crafted Screenwriting with LLMs
- arxiv url: http://arxiv.org/abs/2510.23163v1
- Date: Mon, 27 Oct 2025 09:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.513856
- Title: Beyond Direct Generation: A Decomposed Approach to Well-Crafted Screenwriting with LLMs
- Title(参考訳): ダイレクトジェネレーションを超えて: LLMによる巧妙な脚本の分解アプローチ
- Authors: Hang Lei, Shengyi Zong, Zhaoyan Li, Ziren Zhou, Hao Liu,
- Abstract要約: 大きな言語モデル(LLM)は、創造的な記述において大きな可能性を示します。
直接のエンドツーエンド生成アプローチは、よく製作されたスクリーンプレイを作るのに失敗することが多い。
本稿ではDSR(Dual-Stage Refinement)という,形式変換から創造的な物語生成を分離するフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 6.802263659531867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The screenplay serves as the foundation for television production, defining narrative structure, character development, and dialogue. While Large Language Models (LLMs) show great potential in creative writing, direct end-to-end generation approaches often fail to produce well-crafted screenplays. We argue this failure stems from forcing a single model to simultaneously master two disparate capabilities: creative narrative construction and rigid format adherence. The resulting outputs may mimic superficial style but lack the deep structural integrity and storytelling substance required for professional use. To enable LLMs to generate high-quality screenplays, we introduce Dual-Stage Refinement (DSR), a decomposed framework that decouples creative narrative generation from format conversion. The first stage transforms a brief outline into rich, novel-style prose. The second stage refines this narrative into a professionally formatted screenplay. This separation enables the model to specialize in one distinct capability at each stage. A key challenge in implementing DSR is the scarcity of paired outline-to-novel training data. We address this through hybrid data synthesis: reverse synthesis deconstructs existing screenplays into structured inputs, while forward synthesis leverages these inputs to generate high-quality narrative texts as training targets. Blind evaluations by professional screenwriters show that DSR achieves a 75% win rate against strong baselines like Gemini-2.5-Pro and reaches 82.7% of human-level performance. Our work demonstrates that decomposed generation architecture with tailored data synthesis effectively specializes LLMs in complex creative domains.
- Abstract(参考訳): 脚本はテレビ製作の基礎となり、物語構造、キャラクター開発、対話を定義する。
大規模言語モデル(LLM)は創造的記述において大きな可能性を秘めているが、直接的なエンドツーエンド生成アプローチは、よく製作されたスクリーンプレイを作るのに失敗することが多い。
この失敗は、創造的な物語構築と堅固なフォーマットの定着という、2つの異なる能力を同時にマスターする1つのモデルを強制することに起因する、と私たちは主張する。
結果として得られるアウトプットは表面的なスタイルを模倣するかもしれないが、プロの用途に必要な深い構造的整合性とストーリーテリング物質は欠如している。
LLMが高品質なスクリーンプレイを生成するために、フォーマット変換から創造的な物語生成を分離する分解フレームワークであるDSR(Dual-Stage Refinement)を導入する。
第1段は、短いアウトラインをリッチで斬新なスタイルの散文に変換する。
第2ステージでは、この物語をプロ向けの脚本に洗練させる。
この分離により、モデルは各段階で1つの異なる能力に特化することができる。
DSRを実装する上で重要な課題は、ペア化されたアウトラインとノーベルのトレーニングデータの不足である。
逆合成は既存の画面を構造化された入力に分解し、前方合成はこれらの入力を活用して高品質な物語テキストを訓練対象として生成する。
プロの脚本家によるブラインドの評価によると、DSRはジェミニ2.5-Proのような強力なベースラインに対して75%の勝利率を獲得し、人間レベルのパフォーマンスの82.7%に達する。
我々の研究は、複雑な創造領域におけるLLMを効果的に専門化するために、データ合成を調整した分解生成アーキテクチャが有効であることを示す。
関連論文リスト
- NexusSum: Hierarchical LLM Agents for Long-Form Narrative Summarization [0.0]
物語要約のための多エージェントLLMフレームワークであるNexusSumを紹介する。
物語固有の事前処理方法は、文字対話と記述テキストを統一されたフォーマットに標準化する。
本手法は物語要約における新たな最先端技術を確立し,書籍,映画,テレビ脚本間でBERTScore(F1)を最大30.0%向上させる。
論文 参考訳(メタデータ) (2025-05-30T13:26:23Z) - STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives [82.19488717416351]
本稿では,高品質でマルチシーンなストーリーフレームを生成するための統合フレームワークであるStoryAnchorsを紹介する。
StoryAnchorsは、時間的一貫性を確保するために、過去と将来の両方のコンテキストを統合する双方向のストーリージェネレータを使用している。
また、マルチイベントストーリーフレームラベリングとプログレッシブストーリーフレームトレーニングを統合し、モデルが包括的な物語の流れとイベントレベルのダイナミクスの両方をキャプチャできるようにする。
論文 参考訳(メタデータ) (2025-05-13T08:48:10Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Agents' Room: Narrative Generation through Multi-step Collaboration [54.98886593802834]
本稿では,物語の執筆を特殊エージェントが取り組んだサブタスクに分解する,物語理論に触発された世代フレームワークを提案する。
エージェントの部屋は,専門的評価者が好むストーリーをベースラインシステムより生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T15:44:42Z) - HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing [45.95600225239927]
大規模言語モデル(LLM)は、文学的な文章の複雑さが極めて高いため、人間の専門家のレベルで書かれた作品を作成することはほとんどできない。
本稿では,LLMの創造性を解放し,スクリーンライティングにおけるその可能性を探るためのフレームワークであるHoLLMwoodを紹介する。
論文 参考訳(メタデータ) (2024-06-17T16:01:33Z) - From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent [11.553884271082127]
本稿では,デジタルストーリーテリングを自動化するためのStoryAgentフレームワークを紹介する。
StoryAgentは手動の介入、インタラクティブなシーンオーケストレーション、物語の一貫性といった重要な問題に取り組む。
その結果、参照ビデオなしでコヒーレントなデジタルストーリーを作成できるフレームワークの能力を実証した。
論文 参考訳(メタデータ) (2024-06-15T03:03:43Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。