論文の概要: Learning Plug-and-play Memory for Guiding Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.19229v2
- Date: Thu, 27 Nov 2025 05:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.781598
- Title: Learning Plug-and-play Memory for Guiding Video Diffusion Models
- Title(参考訳): ビデオ拡散モデルの誘導のためのプラグアンドプレイ記憶の学習
- Authors: Selena Song, Ziming Xu, Zijun Zhang, Kun Zhou, Jiaxian Guo, Lianhui Qin, Biwei Huang,
- Abstract要約: 拡散変換器(DiT)を用いた映像生成モデルは近年,目覚しい品質と時間的コヒーレンスを実現している。
本研究では,有用な世界知識を注入するプラグイン・アンド・プレイメモリの装備方法について検討する。
本稿では,3次元CNN,低域/高域フィルタ,自己アテンション層からなる学習可能なメモリエンコーダDiT-Memを提案する。
- 参考スコア(独自算出の注目度): 41.356882753664884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformer(DiT) based video generation models have recently achieved impressive visual quality and temporal coherence, but they still frequently violate basic physical laws and commonsense dynamics, revealing a lack of explicit world knowledge. In this work, we explore how to equip them with a plug-and-play memory that injects useful world knowledge. Motivated by in-context memory in Transformer-based LLMs, we conduct empirical studies to show that DiT can be steered via interventions on its hidden states, and simple low-pass and high-pass filters in the embedding space naturally disentangle low-level appearance and high-level physical/semantic cues, enabling targeted guidance. Building on these observations, we propose a learnable memory encoder DiT-Mem, composed of stacked 3D CNNs, low-/high-pass filters, and self-attention layers. The encoder maps reference videos into a compact set of memory tokens, which are concatenated as the memory within the DiT self-attention layers. During training, we keep the diffusion backbone frozen, and only optimize the memory encoder. It yields a rather efficient training process on few training parameters (150M) and 10K data samples, and enables plug-and-play usage at inference time. Extensive experiments on state-of-the-art models demonstrate the effectiveness of our method in improving physical rule following and video fidelity. Our code and data are publicly released here: https://thrcle421.github.io/DiT-Mem-Web/.
- Abstract(参考訳): Diffusion Transformer (DiT) ベースのビデオ生成モデルは近年、目覚しい視覚的品質と時間的コヒーレンスを達成したが、基本的な物理法則やコモンセンスのダイナミクスに反することが多く、明示的な世界知識の欠如が浮かび上がっている。
本研究では,有用な世界知識を注入するプラグイン・アンド・プレイメモリの装備方法について検討する。
本研究では,Transformer を用いた LLM におけるインコンテキストメモリにより,DiT が隠れた状態への介入によって制御可能であることを示す実証的研究を行い,埋め込み空間における低域フィルタと高域フィルタが自然に低レベルな外観と高次物理・セマンティックな手がかりを乱し,目標とする誘導を可能にした。
これらの観測に基づいて,3次元CNN,低域/高域フィルタ,自己アテンション層からなる学習可能なメモリエンコーダDiT-Memを提案する。
エンコーダは、参照ビデオをコンパクトなメモリトークンセットにマッピングし、DiT自己保持層内のメモリとして結合する。
トレーニング中、拡散バックボーンは凍結し、メモリエンコーダのみを最適化します。
少数のトレーニングパラメータ(150M)と10Kデータサンプルに対して、かなり効率的なトレーニングプロセスを生成し、推論時にプラグインとプレイの使用を可能にする。
最新の技術モデルに対する広範囲な実験により,物理ルールの追従と映像の忠実性向上に本手法の有効性が示された。
私たちのコードとデータは、以下に公開されています。
関連論文リスト
- ESSENTIAL: Episodic and Semantic Memory Integration for Video Class-Incremental Learning [8.958316945958025]
ESSENTIALは、時間的にスパースな特徴を記憶するためのエピソードメモリと、学習可能なプロンプトで表される一般的な知識を記憶するためのセマンティックメモリから構成される。
本稿では,エピソードメモリとセマンティックプロンプトをクロスアテンションを通じて統合した新しいメモリ検索(MR)モジュールを提案する。
注目すべきは、メモリの大幅な削減により、ESSENTIALはベンチマークで良好なパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2025-08-14T17:59:07Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Normal Learning in Videos with Attention Prototype Network [6.842621605295172]
本稿では,通常の潜伏空間をプロトタイプとしてリアルタイムに符号化する自己注意型プロトタイプユニット(APU)を提案する。
さらに,我々の背骨に循環的注意機構を導入し,新たな特徴抽出学習者,すなわち循環的注意ユニット(CAU)を形成する。
論文 参考訳(メタデータ) (2021-08-25T05:51:58Z) - Learning Normal Dynamics in Videos with Meta Prototype Network [42.26572006215833]
メモリコストを伴わずに,プロトタイプとして正規ダイナミクスをリアルタイムに符号化するプロトタイプユニット(DPU)を提案する。
さらに,メタ・プロトタイプ・ユニット(MPU)という,新規な数発の正規化学習者を形成するメタ・ラーニングを導入する。
論文 参考訳(メタデータ) (2021-04-14T08:25:53Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。