論文の概要: One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.22144v1
- Date: Thu, 21 May 2026 08:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.157558
- Title: One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems
- Title(参考訳): 1つの文と1つのドラマ: マルチエージェントシステムによるパーソナライズされた短期ドラマ生成
- Authors: Yufei Shi, Weilong Yan, Naixuan Huang, Yucheng Chen, Chenyu Zhang, Tao He, Si Yong Yeo, Ming Li,
- Abstract要約: One Sentence, One Dramaは階層的なマルチエージェントフレームワークで、ユーザの単一文のアイデアを完全な短編ドラマに変換する。
提案手法は,(1)ショートドラマのパッシングと物語のコヒーレンスを強制するマルチエージェントの議論ベースのストーリー生成モジュール,(2)一貫したキャラクタの位置決めとシーンレイアウトのための共有空間参照を確立する3次元1フレーム生成機構,(3)包括的エラー検出とスクリプト,視覚,映像生成ステージ間のターゲットリビジョンを行うマルチステージレビュアループの3つの主要な構成要素に基づいて構築されている。
- 参考スコア(独自算出の注目度): 17.754369892506542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for digital short-drama production typically rely on one-shot LLM generated scripts and loosely coupled pipelines, which fail to satisfy three key requirements of short-drama generation: (1) narrative pacing, resulting in weak hooks, insufficient escalation, and unattractive endings; (2) spatial consistency, leading to drifting scene layouts and inconsistent character positions across clips; and (3) production-level quality control, requiring extensive manual review and correction across script and visual stages. We present One Sentence, One Drama, a hierarchical multi-agent framework that transforms a user's single-sentence idea into a fully produced short drama through structured intermediate modules and iterative refinement. Our approach is built upon three key components: (1) a multi-agent debate-based story generation module that enforces short-drama pacing and narrative coherence; (2) a 3D-grounded first-frame generation mechanism that establishes a shared spatial reference for consistent character positioning and scene layout across clips; and (3) multi-stage reviewer loops that perform comprehensive error detection and targeted revision across script, visual, and video generation stages. We also introduce scene-level BGM matching and scene transition planning to improve the audience's immersive experience. To systematically evaluate this task, we introduce Short-Drama-Bench, a benchmark that extends standard video quality metrics with short-drama-specific criteria. Experimental results demonstrate that our method significantly outperforms existing pipelines in narrative quality, cross-clip consistency, and overall viewing experience.
- Abstract(参考訳): 既存のデジタルショートドラマ制作のアプローチは、一発のLCM生成スクリプトと疎結合パイプラインに依存しており、1)ナラティブペーシング、弱いフック、不十分なエスカレーション、難解なエンディング、(2)空間的一貫性、ドリフトシーンレイアウトやクリップ間の不整合なキャラクタ位置、(3)スクリプトとビジュアルステージ間の広範な手作業によるレビューと修正の3つの重要な要件を満たすことができない。
本稿では,階層的なマルチエージェントフレームワークであるOne Sentence, One Dramaを紹介する。
提案手法は,(1)ショートドラマのパッシングと物語のコヒーレンスを強制するマルチエージェント・ディスカッションベースのストーリー生成モジュール,(2)一貫したキャラクタの位置決めとシーンレイアウトのための共有空間参照を確立する3次元第1フレーム生成機構,(3)包括的エラー検出とスクリプト,視覚,映像生成ステージ間のターゲットリビジョンを行うマルチステージレビュアループ,の3つの主要な構成要素に基づいて構築されている。
また,シーンレベルのBGMマッチングとシーン遷移計画を導入し,観客の没入感を向上させる。
この課題を体系的に評価するために,ショートドラマベンチ(Short-Drama-Bench)というベンチマークを導入する。
実験により,本手法は,物語品質,クロスクリップ一貫性,全体視聴体験において,既存のパイプラインを著しく上回ることを示す。
関連論文リスト
- Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration [61.98029663481308]
Soap2SoapはDualBridgeメカニズムを通じて長期の視覚的一貫性を強制するマルチエージェントフレームワークである。
クローズドループ検証エージェントは、識別、安定性、アライメントを監査し、選択的再生を誘導する。
論文 参考訳(メタデータ) (2026-05-17T12:38:21Z) - Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation [13.671638376402377]
Cutscene Agentは、エンドツーエンドのCutscene自動生成のためのエージェントフレームワークである。
フレームワークには3つのコントリビューションがある。
モデルコンテキストプロトコル(MCP)上に構築されたCutscene Toolkit。
LLMエージェントとゲームエンジンの双方向統合。
監督エージェントは、アニメーション、撮影撮影、音響デザインのスペシャリストを編成し、視覚的推論フィードバックループによって、知覚駆動の洗練のために強化する。
論文 参考訳(メタデータ) (2026-04-28T07:28:14Z) - MuSS: A Large-Scale Dataset and Cinematic Narrative Benchmark for Multi-Shot Subject-to-Video Generation [17.275771056805556]
MuSSは、マルチショットビデオとS2V生成に適した、大規模なデュアルトラックデータセットである。
3000本以上の映画から引用された MuSS は、複雑なモンタージュ遷移と主観的な物語の両方を明示的にサポートしている。
本稿では,視覚的なACPlogic中心のパラダイムと,新しいアンチコピー・ペースト変動尺度を特徴とするCinematic Narrative Benchmarkを提案する。
論文 参考訳(メタデータ) (2026-04-26T16:28:46Z) - OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video [59.391671069156274]
本稿では,階層的なシーン・バイ・シーンのスクリプトを生成することを目的とした,新しいV2Sタスクを提案する。
長文の物語理解に適した8Bパラメータ omni-modal (audio-visual) 言語モデルであるOmniScriptを提案する。
論文 参考訳(メタデータ) (2026-04-13T07:19:27Z) - Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models [76.7535001311919]
State-of-the-the-art Text-to-Video (T2V)拡散モデルは視覚的に印象的な結果を生成することができるが、複雑なシーンを作成したり、論理的時間的指示に従うのに失敗することが多い。
テキスト・ツー・ビデオ・ジェネレーションを3つの特殊ステージに分解することでこれらのタスクを分離するパイプラインであるFVGを紹介した。
提案手法は,T2V CompBench ベンチマークに新たな最先端技術を導入し,VBench2 上でのテストモデルすべてを大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T10:10:45Z) - STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory [47.073128448877775]
我々は,一貫した,スケーラブルな物語生成のためのグローバルかつコンパクトなクロスショットコンテキストモデリングを実現するOneStoryを提案する。
OneStoryは、MSVを次のショット生成タスクとして再構成し、トレーニング済みのイメージ・ツー・ビデオ(I2V)モデルを活用しながら、自己回帰的なショット合成を可能にする。
OneStoryは、テキストと画像条件の両方の設定において、多種多様な複雑なシーンにまたがる最先端の物語コヒーレンスを実現する。
論文 参考訳(メタデータ) (2025-12-08T18:32:24Z) - Plug-and-Play Dramaturge: A Divide-and-Conquer Approach for Iterative Narrative Script Refinement via Collaborative LLM Agents [23.1768597825114]
Dramaturge は階層的な複数の LLM エージェントをベースとしたタスク指向の分割・解法である。
全体的なストーリーラインと構造的問題を把握するためのグローバル・レビュー・ステージ、詳細なシーンと文の欠陥をピンポイントするシーンレベルのレビュー・ステージ、脚本全体の構造的および詳細な改善をコーディネートし統合する階層的コーディネート・リビジョン・ステージで構成されている。
我々のアプローチはプラグイン・アンド・プレイであり、既存のメソッドに簡単に統合して生成されたスクリプトを改善することができる。
論文 参考訳(メタデータ) (2025-10-06T05:20:37Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation [60.07447565026327]
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
大規模言語モデル(LLM)を用いて入力スクリプトを構築し、粗粒度シーン計画と細粒度オブジェクトレベルのレイアウトと動き計画の両方を容易にする。
DreamRunnerは、検索拡張されたテストタイムアダプションで、各シーンのオブジェクトのターゲットモーションをキャプチャし、検索されたビデオに基づいたさまざまなモーションカスタマイズをサポートする。
論文 参考訳(メタデータ) (2024-11-25T18:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。