論文の概要: OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory
- arxiv url: http://arxiv.org/abs/2512.07802v1
- Date: Mon, 08 Dec 2025 18:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.004695
- Title: OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory
- Title(参考訳): OneStory: 適応メモリによるコヒーレントなマルチショットビデオ生成
- Authors: Zhaochong An, Menglin Jia, Haonan Qiu, Zijian Zhou, Xiaoke Huang, Zhiheng Liu, Weiming Ren, Kumara Kahatapitiya, Ding Liu, Sen He, Chenyang Zhang, Tao Xiang, Fanny Yang, Serge Belongie, Tian Xie,
- Abstract要約: 我々は,一貫した,スケーラブルな物語生成のためのグローバルかつコンパクトなクロスショットコンテキストモデリングを実現するOneStoryを提案する。
OneStoryは、MSVを次のショット生成タスクとして再構成し、トレーニング済みのイメージ・ツー・ビデオ(I2V)モデルを活用しながら、自己回帰的なショット合成を可能にする。
OneStoryは、テキストと画像条件の両方の設定において、多種多様な複雑なシーンにまたがる最先端の物語コヒーレンスを実現する。
- 参考スコア(独自算出の注目度): 47.073128448877775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Storytelling in real-world videos often unfolds through multiple shots -- discontinuous yet semantically connected clips that together convey a coherent narrative. However, existing multi-shot video generation (MSV) methods struggle to effectively model long-range cross-shot context, as they rely on limited temporal windows or single keyframe conditioning, leading to degraded performance under complex narratives. In this work, we propose OneStory, enabling global yet compact cross-shot context modeling for consistent and scalable narrative generation. OneStory reformulates MSV as a next-shot generation task, enabling autoregressive shot synthesis while leveraging pretrained image-to-video (I2V) models for strong visual conditioning. We introduce two key modules: a Frame Selection module that constructs a semantically-relevant global memory based on informative frames from prior shots, and an Adaptive Conditioner that performs importance-guided patchification to generate compact context for direct conditioning. We further curate a high-quality multi-shot dataset with referential captions to mirror real-world storytelling patterns, and design effective training strategies under the next-shot paradigm. Finetuned from a pretrained I2V model on our curated 60K dataset, OneStory achieves state-of-the-art narrative coherence across diverse and complex scenes in both text- and image-conditioned settings, enabling controllable and immersive long-form video storytelling.
- Abstract(参考訳): 実世界のビデオのストーリーテリングは、しばしば複数のショットを通して展開される。
しかし、既存のマルチショットビデオ生成(MSV)手法は、時間的ウィンドウや単一のキーフレーム条件に依存するため、長距離クロスショットコンテキストを効果的にモデル化するのは難しいため、複雑な物語では性能が劣化する。
本研究では,一貫した,スケーラブルな物語生成のための,グローバルかつコンパクトなクロスショットコンテキストモデリングを実現するOneStoryを提案する。
OneStoryは、MSVを次のショット生成タスクとして再構成し、トレーニング済みのイメージ・ツー・ビデオ(I2V)モデルを活用して、強力なビジュアルコンディショニングを実現する。
本稿では,先行ショットからの情報フレームに基づいて意味的に関連付けられたグローバルメモリを構成するフレーム選択モジュールと,直接条件付けのためのコンパクトなコンテキストを生成するための重要誘導型アダプティブコンディショナーの2つの重要なモジュールを紹介する。
さらに、実世界のストーリーテリングパターンを反映し、次のショットパラダイムの下で効果的なトレーニング戦略を設計するための参照キャプション付き高品質なマルチショットデータセットをキュレートする。
キュレートされた60Kデータセット上の事前トレーニングされたI2Vモデルから、OneStoryは、テキストと画像条件の両方において、多種多様な複雑なシーンにまたがる最先端の物語コヒーレンスを達成し、制御可能で没入可能な長めのビデオストーリーテリングを可能にします。
関連論文リスト
- VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。