論文の概要: StoryMem: Multi-shot Long Video Storytelling with Memory
- arxiv url: http://arxiv.org/abs/2512.19539v1
- Date: Mon, 22 Dec 2025 16:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.834128
- Title: StoryMem: Multi-shot Long Video Storytelling with Memory
- Title(参考訳): StoryMem: メモリ付きマルチショットビデオストーリーテリング
- Authors: Kaiwen Zhang, Liming Jiang, Angtian Wang, Jacob Zhiyuan Fang, Tiancheng Zhi, Qing Yan, Hao Kang, Xin Lu, Xingang Pan,
- Abstract要約: 本稿では,ビデオの長めのストーリーテリングを,明示的な視覚記憶を前提とした反復的なショット合成として再構成するパラダイムであるStoryMemを提案する。
提案するフレームワークは、スムーズなショット遷移とカスタマイズされたストーリー生成アプリケーションに自然に対応している。
- 参考スコア(独自算出の注目度): 32.97816766878247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling requires generating multi-shot videos with cinematic quality and long-range consistency. Inspired by human memory, we propose StoryMem, a paradigm that reformulates long-form video storytelling as iterative shot synthesis conditioned on explicit visual memory, transforming pre-trained single-shot video diffusion models into multi-shot storytellers. This is achieved by a novel Memory-to-Video (M2V) design, which maintains a compact and dynamically updated memory bank of keyframes from historical generated shots. The stored memory is then injected into single-shot video diffusion models via latent concatenation and negative RoPE shifts with only LoRA fine-tuning. A semantic keyframe selection strategy, together with aesthetic preference filtering, further ensures informative and stable memory throughout generation. Moreover, the proposed framework naturally accommodates smooth shot transitions and customized story generation applications. To facilitate evaluation, we introduce ST-Bench, a diverse benchmark for multi-shot video storytelling. Extensive experiments demonstrate that StoryMem achieves superior cross-shot consistency over previous methods while preserving high aesthetic quality and prompt adherence, marking a significant step toward coherent minute-long video storytelling.
- Abstract(参考訳): ビジュアルなストーリーテリングは、撮影品質と長距離一貫性を備えたマルチショットビデオを生成する必要がある。
人間の記憶にインスパイアされたStoryMemは、露骨な視覚記憶に条件づけられた反復的なショット合成として長大なビデオストーリーテリングを再構成し、事前訓練された単発ビデオ拡散モデルをマルチショットストーリーテラーに変換するパラダイムである。
これは、キーフレームのコンパクトで動的に更新されたメモリバンクを歴史的に生成されたショットから維持する、新しいMemory-to-Video (M2V)設計によって実現される。
記憶されたメモリは、LORA微細調整のみで、潜時連結と負のRoPEシフトによって単発ビデオ拡散モデルに注入される。
セマンティックキーフレーム選択戦略は、美的嗜好フィルタリングとともに、世代を通して情報的かつ安定したメモリを保証する。
さらに,提案フレームワークはスムーズなショット遷移とカスタマイズされたストーリー生成アプリケーションに対応している。
評価を容易にするために,マルチショットビデオストーリーテリングのための多様なベンチマークであるST-Benchを紹介する。
大規模な実験により、StoryMemは従来の方法よりも優れたクロスショット一貫性を達成しつつ、高い美的品質と迅速な定着を保ち、コヒーレントな分間のビデオストーリーテリングに向けて重要な一歩を踏み出した。
関連論文リスト
- STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [46.67733869872552]
textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。
私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。
本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
論文 参考訳(メタデータ) (2025-12-12T04:34:53Z) - OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory [47.073128448877775]
我々は,一貫した,スケーラブルな物語生成のためのグローバルかつコンパクトなクロスショットコンテキストモデリングを実現するOneStoryを提案する。
OneStoryは、MSVを次のショット生成タスクとして再構成し、トレーニング済みのイメージ・ツー・ビデオ(I2V)モデルを活用しながら、自己回帰的なショット合成を可能にする。
OneStoryは、テキストと画像条件の両方の設定において、多種多様な複雑なシーンにまたがる最先端の物語コヒーレンスを実現する。
論文 参考訳(メタデータ) (2025-12-08T18:32:24Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。