論文の概要: EM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation
- arxiv url: http://arxiv.org/abs/2605.23610v1
- Date: Fri, 22 May 2026 13:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.363886
- Title: EM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation
- Title(参考訳): EM-Vid: 高速で一貫性のあるマルチショットビデオ生成のための学習不要なエンティティ中心メモリ
- Authors: Jente Vandersanden, Matheus Gadelha, Chun-Hao P. Huang, Hyeonho Jeong, Yulia Gryaditskaya,
- Abstract要約: マルチショットビデオ生成には、ショット間で連続的なエンティティの出現を維持する必要がある。
最近の自己回帰手法は、以前生成されたフレームをメモリとして再利用する。
我々は、潜伏パッチのエンティティインデックスバンクという形でエンティティ中心のメモリを提案する。
- 参考スコア(独自算出の注目度): 18.052867824594347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-shot video generation requires maintaining a consistent appearance of recurring entities across shots while remaining faithful to shot-specific text prompts. Recent autoregressive methods reuse previously generated frames as memory. However, full-frame storage entangles persistent entity information with transient scene context, leading to irrelevant information leakage and high computational cost. We propose an entity-centric memory in the form of an entity-indexed bank of latent patches. We introduce sparse token conditioning compatible with pretrained models, restricting self-attention to entity-relevant tokens and reducing computational cost. To support this, we introduce a structured multi-shot script format. We additionally propose a budgeted memory update strategy to maintain a compact, evolving memory. Finally, we equip the entity representation with a noise-injection mechanism that enables fine-grained appearance control, preventing leakage of irrelevant information. Our method improves prompt adherence and efficiency while preserving subject consistency.
- Abstract(参考訳): マルチショットビデオ生成は、ショット固有のテキストプロンプトを忠実に保ちながら、ショット全体で連続したエンティティの出現を維持する必要がある。
最近の自己回帰手法は、以前生成されたフレームをメモリとして再利用する。
しかし、フルフレームストレージは、永続的なエンティティ情報を過渡的なシーンコンテキストに絡み合わせることで、無関係な情報漏洩と高い計算コストをもたらす。
我々は、潜伏パッチのエンティティインデックスバンクという形でエンティティ中心のメモリを提案する。
事前訓練されたモデルと互換性のあるスパーストークン条件付けを導入し、エンティティ関連トークンへの自己アテンションを制限し、計算コストを削減した。
これをサポートするために、構造化されたマルチショットスクリプトフォーマットを導入する。
また、我々は、コンパクトで進化するメモリを維持するために、予算化されたメモリ更新戦略を提案する。
最後に、エンティティ表現にノイズ注入機構を組み込むことにより、きめ細かい外観制御を可能にし、無関係な情報の漏洩を防止する。
本手法は,主観的整合性を維持しつつ,迅速な密着性と効率性を向上させる。
関連論文リスト
- Tiny-Engram: Trigger-Indexed Concept Tables for Generative Vision [9.538470992436883]
小さく明示的な概念テーブルは、モジュール化された視覚的パーソナライゼーションへの実践的なルートである。
Tiny-Engramは、各概念を、登録されたn-gramマッチによってインデックスされた小さなメモリエントリのセットとしてパラメータ化する。
結果は,小型で明示的な概念表が,モジュール化された視覚的パーソナライゼーションへの実践的な経路であることを示唆している。
論文 参考訳(メタデータ) (2026-05-19T16:27:07Z) - SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - Memorize When Needed: Decoupled Memory Control for Spatially Consistent Long-Horizon Video Generation [22.26820693283945]
本稿では,メモリコンディショニングと生成を分離する分離されたフレームワークを提案する。
我々は、歴史的観測から正確な空間整合性を学ぶために、軽量で独立したメモリブランチを使用している。
提案手法は,視覚的品質と空間的整合性の両方の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-04-20T13:00:17Z) - Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping [95.91466630940084]
Diffusion Transformer (DiTs) はテキスト・ツー・イメージ(T2I)の生成品質を大幅に向上させ、高品質なパーソナライズされたコンテンツ作成を可能にした。
時間ステップ対応動的パッチサンプリングとブロックスキップを統合した,メモリ効率の良い細調整フレームワークDiT-BlockSkipを提案する。
提案手法は,メモリ使用量を大幅に削減しつつ,質的,定量的に競合するパーソナライズ性能を実現する。
論文 参考訳(メタデータ) (2026-03-21T11:02:18Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse [4.210760734549566]
FlashMemは、計算再利用を通じて、過渡的推論状態から直接固有のメモリを蒸留するフレームワークである。
実験によると、FlashMemは5倍の推論遅延を減らしながら、重いベースラインのパフォーマンスと一致している。
論文 参考訳(メタデータ) (2026-01-09T03:27:43Z) - VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。