Fugu-MT 論文翻訳(概要): InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

論文の概要: InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

arxiv url: http://arxiv.org/abs/2603.03646v1
Date: Wed, 04 Mar 2026 02:10:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.152329
Title: InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions
Title（参考訳）: InfinityStory: 世界一貫性とキャラクタ対応ショットトランジションを備えた無制限ビデオ生成
Authors: Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt,
Abstract要約: 本稿では,ビデオ合成における3つの限界に対処する新しいフレームワーク,データセット,モデルを提案する。ショット間のバックグラウンド一貫性、シームレスなマルチオブジェクトショット・ツー・ショット・トランジション、時間単位の物語へのスケーラビリティに対処する。本稿では,複数の被写体が入射する複雑なシナリオに対してスムーズなショット遷移を生成するトランジション対応ビデオ合成モジュールを提案する。
参考スコア（独自算出の注目度）: 137.1784538723039
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating long-form storytelling videos with consistent visual narratives remains a significant challenge in video synthesis. We present a novel framework, dataset, and a model that address three critical limitations: background consistency across shots, seamless multi-subject shot-to-shot transitions, and scalability to hour-long narratives. Our approach introduces a background-consistent generation pipeline that maintains visual coherence across scenes while preserving character identity and spatial relationships. We further propose a transition-aware video synthesis module that generates smooth shot transitions for complex scenarios involving multiple subjects entering or exiting frames, going beyond the single-subject limitations of prior work. To support this, we contribute with a synthetic dataset of 10,000 multi-subject transition sequences covering underrepresented dynamic scene compositions. On VBench, InfinityStory achieves the highest Background Consistency (88.94), highest Subject Consistency (82.11), and the best overall average rank (2.80), showing improved stability, smoother transitions, and better temporal coherence.
Abstract（参考訳）: ロングフォームなストーリーテリングビデオと一貫したビジュアルな物語を生成することは、ビデオ合成において重要な課題である。我々は、ショット間のバックグラウンド一貫性、シームレスなマルチオブジェクトショット・ツー・ショット移行、時間単位の物語へのスケーラビリティという、3つの重要な制約に対処する新しいフレームワーク、データセット、モデルを提案する。本手法では,人物の身元と空間的関係を保ちながら,シーン間の視覚的コヒーレンスを維持する,背景一貫性のある生成パイプラインを提案する。さらに,複数の被写体がフレームに入ったり出たりする複雑なシナリオに対するスムーズなショット遷移を生成できる遷移対応ビデオ合成モジュールを提案する。これを支援するために,過度に表現されていない動的シーン構成をカバーする1万個の多目的遷移シーケンスの合成データセットを構築した。 VBenchでは、InfinityStoryは最高バックグラウンド一貫性(88.94)、最高主題一貫性(82.11)、最高総合平均ランク(2.80)を達成し、安定性の向上、スムーズな遷移、時間的コヒーレンスの向上を示している。

関連論文リスト

STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。 ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文参考訳（メタデータ） (2025-12-13T15:57:29Z)
STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives [82.19488717416351]
本稿では,高品質でマルチシーンなストーリーフレームを生成するための統合フレームワークであるStoryAnchorsを紹介する。 StoryAnchorsは、時間的一貫性を確保するために、過去と将来の両方のコンテキストを統合する双方向のストーリージェネレータを使用している。また、マルチイベントストーリーフレームラベリングとプログレッシブストーリーフレームトレーニングを統合し、モデルが包括的な物語の流れとイベントレベルのダイナミクスの両方をキャプチャできるようにする。
論文参考訳（メタデータ） (2025-05-13T08:48:10Z)
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。 VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文参考訳（メタデータ） (2025-03-19T11:59:14Z)
Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文参考訳（メタデータ） (2025-03-08T19:04:36Z)
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。 VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文参考訳（メタデータ） (2024-12-03T08:33:50Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。