論文の概要: Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory
- arxiv url: http://arxiv.org/abs/2605.18733v1
- Date: Mon, 18 May 2026 17:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.219958
- Title: Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory
- Title(参考訳): 学習自由なアイデンティティ・アウェアメモリによるナラティブ・ロングビデオ生成の促進
- Authors: Jinzhuo Liu, Jiangning Zhang, Wencan Jiang, Yabiao Wang, Dingkang Liang, Zhucun Xue, Ran Yi, Yong Liu,
- Abstract要約: IAMFlowはトレーニング不要のID対応メモリフレームワークで、永続的なエンティティのIDを明示的にモデル化し追跡する。
VLMは、レンダリングフレームから属性を非同期に検証し、洗練し、暗黙の類似性ベースのマッチングの代わりに明示的なエンティティ追跡を可能にする。
NarraStream-Benchは,6次元にまたがる324のマルチプロンプトスクリプトを備えた,ナラストリームビデオ生成のためのベンチマークである。
- 参考スコア(独自算出の注目度): 79.01059178883817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive video generation has improved rapidly in visual fidelity and interactivity, but it still suffers from long-term inconsistency and memory degradation. Most existing solutions either compress historical frames using predefined strategies or retrieve keyframes based on coarse implicit attention signals, both of which fail to handle evolving prompts with shifting entity references, leading to identity drift, character duplication, and attribute loss. To address this, we propose IAMFlow, a training-free identity-aware memory framework that explicitly models and tracks persistent entity identities, enabling consistent generation across prompt transitions. Specifically, an LLM extracts entities with visual attributes from each prompt and assigns unique global IDs for identity-aware memory, while a VLM asynchronously verifies and refines attributes from rendered frames, enabling explicit entity tracking in place of implicit similarity-based matching. To keep the proposed framework computationally practical, we design a systematic inference acceleration pipeline, including asynchronous visual verification, adaptive prompt transition, and model quantization, which achieves faster generation than existing baselines. Furthermore, we introduce NarraStream-Bench, a benchmark for narrative streaming video generation that features 324 multi-prompt scripts spanning six dimensions and a three-dimensional evaluation protocol that integrates both traditional metrics and multimodal large language model-based assessments. Extensive experiments show that IAMFlow, despite being training-free, achieves the best overall performance on NarraStream-Bench, outperforming the strongest baseline by 2.56 points, while achieving a 1.39$\times$ speedup over the most efficient baseline in the 60-second multi-prompt setting.
- Abstract(参考訳): 自己回帰ビデオ生成は、視覚的忠実度と対話性において急速に改善されているが、それでも長期的不整合と記憶の劣化に悩まされている。
既存のソリューションのほとんどは、事前に定義された戦略を使用して歴史的なフレームを圧縮するか、粗い注意信号に基づいてキーフレームを検索する。
この問題を解決するために、トレーニング不要なID対応メモリフレームワークであるIAMFlowを提案し、永続的なエンティティのアイデンティティを明示的にモデル化し、追跡し、即時遷移をまたいで一貫した生成を可能にする。
具体的には、LCMは各プロンプトから視覚的属性を持つエンティティを抽出し、ID対応メモリにユニークなグローバルIDを割り当てる一方、VLMはレンダリングフレームから属性を非同期に検証して精査し、暗黙的な類似性ベースのマッチングの代わりに明示的なエンティティ追跡を可能にする。
提案するフレームワークを実用的なものにするために,非同期な視覚的検証,適応的なプロンプト遷移,モデル量子化など,既存のベースラインよりも高速な生成が可能な,体系的な推論加速パイプラインを設計する。
さらに,ナラストリームベンチ(NarraStream-Bench)という,6次元にまたがる324のマルチプロンプトスクリプトと,従来のメトリクスとマルチモーダルな大規模言語モデルに基づく評価を統合した3次元評価プロトコルを紹介する。
大規模な実験の結果、IAMFlowはトレーニングなしで、NarraStream-Benchで最高の全体的なパフォーマンスを達成し、最強のベースラインを2.56ポイント上回り、60秒のマルチプロンプト設定において最も効率的なベースラインよりも1.39$\times$スピードアップを達成した。
関連論文リスト
- Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding [0.0]
MTSS(Multi-Stream Scene Script)はモノリシックなテキストを因数化して具体化されたシーン記述に置き換える新しいパラダイムである。
広範囲な実験によりMTSSは様々なモデルにおけるビデオ理解を一貫して強化することを示した。
アーキテクチャの適応がなくても、マルチショットビデオ生成におけるモノリシックプロンプトをMTSSに置き換えると、大幅に改善される。
論文 参考訳(メタデータ) (2026-04-13T09:50:36Z) - PEARL: Personalized Streaming Video Understanding Model [50.273809779498464]
マルチモーダルパーソナライズ法は、主に静的画像やオフラインビデオに限られる。
PEARL-Benchはこの困難な設定を評価するために特別に設計された最初の包括的なベンチマークである。
PEARLは8つのオフラインおよびオンラインモデルにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-20T18:47:54Z) - VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation [47.7036344302777]
現在のオブジェクトビデオ参照メソッドは、抽出-then-matchingのパイプラインに従う。
本稿では,共同機能モデリング,対応,圧縮メモリのための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。