論文の概要: EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation
- arxiv url: http://arxiv.org/abs/2605.15199v1
- Date: Thu, 14 May 2026 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.022573
- Title: EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation
- Title(参考訳): EntityBench: Entity-Consistent Long-Range Multi-Shotビデオ生成を目指す
- Authors: Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez,
- Abstract要約: 実話メディアから派生した140エピソード(2,491ショット)のベンチマークであるEntityBenchを紹介する。
3ピラー評価スイートと組み合わせて、ショット内品質、プロンプト追従アライメント、ショット間の一貫性を歪めます。
実験により、既存手法の繰り返し距離によって、クロスショットエンティティの整合性は著しく低下することが示された。
- 参考スコア(独自算出の注目度): 16.322441569982647
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-shot video generation extends single-shot generation to coherent visual narratives, yet maintaining consistent characters, objects, and locations across shots remains a challenge over long sequences. Existing evaluations typically use independently generated prompt sets with limited entity coverage and simple consistency metrics, making standardized comparison difficult. We introduce EntityBench, a benchmark of 140 episodes (2,491 shots) derived from real narrative media, with explicit per-shot entity schedules tracking characters, objects, and locations simultaneously across easy / medium / hard tiers of up to 50 shots, 13 cross-shot characters, 8 cross-shot locations, 22 cross-shot objects, and recurrence gaps spanning up to 48 shots. It is paired with a three-pillar evaluation suite that disentangles intra-shot quality, prompt-following alignment, and cross-shot consistency, with a fidelity gate that admits only accurate entity appearances into cross-shot scoring. As a baseline, we propose EntityMem, a memory-augmented generation system that stores verified per-entity visual references in a persistent memory bank before generation begins. Experiments show that cross-shot entity consistency degrades sharply with recurrence distance in existing methods, and that explicit per-entity memory yields the highest character fidelity (Cohen's d = +2.33) and presence among methods evaluated. Code and data are available at https://github.com/Catherine-R-He/EntityBench/.
- Abstract(参考訳): マルチショットビデオ生成は、単一ショット生成をコヒーレントなビジュアルな物語に拡張するが、一貫したキャラクタ、オブジェクト、およびショット間の場所を維持することは、長いシーケンスよりも難しい。
既存の評価では、独立して生成されたプロンプトセットを使用し、エンティティのカバレッジが制限され、単純な一貫性のメトリクスを使用するのが一般的であり、標準化された比較が困難である。
実話メディアから派生した140エピソード(2,491ショット)のベンチマークであるEntityBenchを紹介し,最大50ショット,13クロスショット文字,8クロスショットロケーション,22クロスショットオブジェクト,48ショットにまたがるリカレンスギャップと,キャラクタ,オブジェクト,ロケーションの同時追跡を行う。
ショット内品質、プロンプト追従アライメント、クロスショット一貫性を混乱させる3つのピラー評価スイートと、クロスショットスコアへの正確なエンティティの出現のみを許容するフィデリティゲートとがペアリングされている。
本稿では,メモリ拡張生成システムであるEntityMemを提案する。
実験により、既存の手法では、クロスショットエンティティの一貫性はリカレンス距離とともに著しく低下し、明示的なパーエンティリティメモリは最も高い文字忠実度(コーエンのd = +2.33)と評価されたメソッドの間に存在することを示す。
コードとデータはhttps://github.com/Catherine-R-He/EntityBench/で公開されている。
関連論文リスト
- CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives [117.85963914353904]
CausalCineはインタラクティブな自動回帰フレームワークで、マルチショットビデオ生成をオンラインのディレクティブプロセスに変換する。
CausalCineはショット変更を因果的に生成し、動的プロンプトをオンザフライで受け付け、以前のショットを再生することなくコンテキストを再利用する。
論文 参考訳(メタデータ) (2026-05-12T17:59:51Z) - ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling [31.758254551463406]
ShotStreamはインタラクティブなストーリーテリングを可能にする新しい因果的マルチショットアーキテクチャである。
サブ秒のレイテンシでコヒーレントなマルチショットビデオを生成し、1つのGPUで16 FPSを達成する。
論文 参考訳(メタデータ) (2026-03-26T17:59:59Z) - GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection [54.879037588415656]
GenHOIは、事前訓練されたビデオ生成モデルに対する軽量な拡張である。
参照オブジェクト情報を時間的にバランスよく空間的に選択的に注入する。
GenHOIは最先端のHOI再現やオールインワンのビデオ編集方法よりも優れています。
論文 参考訳(メタデータ) (2026-03-06T09:01:09Z) - VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。