Fugu-MT 論文翻訳(概要): Motion-Adaptive Temporal Attention for Lightweight Video Generation with Stable Diffusion

論文の概要: Motion-Adaptive Temporal Attention for Lightweight Video Generation with Stable Diffusion

arxiv url: http://arxiv.org/abs/2603.17398v1
Date: Wed, 18 Mar 2026 06:20:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.541849
Title: Motion-Adaptive Temporal Attention for Lightweight Video Generation with Stable Diffusion
Title（参考訳）: 安定拡散型軽量ビデオ生成のための動き適応型時間アテンション
Authors: Rui Hong, Shuxue Quan,
Abstract要約: 凍結安定拡散モデルに基づくパラメータ効率の高いビデオ生成のための動き適応型時間的注意機構を提案する。カスケード戦略により、UNetトランスフォーマーブロックに軽量な時間的アテンションモジュールを注入する。我々のアブレーション研究は、ノイズ相関と運動振幅との明確なトレードオフを明らかにし、多様な生成行動に対する実用的な推論時間制御を提供する。
参考スコア（独自算出の注目度）: 1.9349092719498848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a motion-adaptive temporal attention mechanism for parameter-efficient video generation built upon frozen Stable Diffusion models. Rather than treating all video content uniformly, our method dynamically adjusts temporal attention receptive fields based on estimated motion content: high-motion sequences attend locally across frames to preserve rapidly changing details, while low-motion sequences attend globally to enforce scene consistency. We inject lightweight temporal attention modules into all UNet transformer blocks via a cascaded strategy -- global attention in down-sampling and middle blocks for semantic stabilization, motion-adaptive attention in up-sampling blocks for fine-grained refinement. Combined with temporally correlated noise initialization and motion-aware gating, the system adds only 25.8M trainable parameters (2.9\% of the base UNet) while achieving competitive results on WebVid validation when trained on 100K videos. We demonstrate that the standard denoising objective alone provides sufficient implicit temporal regularization, outperforming approaches that add explicit temporal consistency losses. Our ablation studies reveal a clear trade-off between noise correlation and motion amplitude, providing a practical inference-time control for diverse generation behaviors.
Abstract（参考訳）: 凍結安定拡散モデルに基づくパラメータ効率の高いビデオ生成のための動き適応型時間的注意機構を提案する。本手法は,全映像コンテンツを一様に扱うのではなく,推定動作内容に基づいて時間的注意受容場を動的に調整する。我々は、すべてのUNetトランスフォーマーブロックに軽量な時間的アテンションモジュールをカスケード戦略で注入し、ダウンサンプリングにおけるグローバルなアテンションと、セマンティック安定化のためのミドルブロック、細粒化のためのアップサンプリングブロックにおけるモーション適応アテンションを注入する。時間的に相関したノイズの初期化とモーションアウェアゲーティングを組み合わせたシステムでは、トレーニング可能なパラメータ(ベースUNetの2.9\%)を25.8Mしか追加せず、100KビデオでトレーニングするとWebVid検証の競合的な結果が得られる。標準的な認知的目的だけでは十分な暗黙的時間的正則化が得られ、時間的整合性の損失が明らかとなるアプローチよりも優れていることを示す。我々のアブレーション研究は、ノイズ相関と運動振幅との明確なトレードオフを明らかにし、多様な生成行動に対する実用的な推論時間制御を提供する。

関連論文リスト

Event-based Visual Deformation Measurement [76.25283405575108]
視覚的変形測定は、カメラ観測から表面の動きを追跡することによって、高密度な変形場を復元することを目的としている。従来の画像ベースの手法は、対応検索空間を制限するため、最小限のフレーム間動作に依存している。本研究では,時間的に密集した動きキューやフレームのイベントを利用して,空間的に密集した正確な推定を行うイベントフレーム融合フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-16T01:04:48Z)
Characterizing Motion Encoding in Video Diffusion Timesteps [50.13907856401258]
本研究では,映像拡散時間ステップにおける動きのエンコードについて,外観編集と動作保存のトレードオフによって検討する。動作優位の早期体制と,その後に出現優位の体制を同定し,時間空間における動作優位の境界を導出する。
論文参考訳（メタデータ） (2025-12-18T21:20:54Z)
Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models [11.913945404405865]
ほとんどのビデオ拡散モデル(VDM)は自己回帰的な方法でビデオを生成し、それに続く繰り返しフレームを生成する。本稿では,自動回帰VDMのためのAdaptive Begin-of-Video Tokens(ada-BOV)を提案する。
論文参考訳（メタデータ） (2025-11-15T08:29:14Z)
LiteAttention: A Temporal Sparse Attention for Diffusion Transformers [1.3471268811218626]
LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
論文参考訳（メタデータ） (2025-11-14T08:26:55Z)
Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。 EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-10-04T15:23:07Z)
DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文参考訳（メタデータ） (2025-08-11T09:54:45Z)
DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization [2.0032531485183345]
静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。 DiViDは、最初のフレームとフレームごとの動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
論文参考訳（メタデータ） (2025-07-18T14:09:18Z)
JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、外観とモーションコンポーネントのジョイント最適化を可能にするフレームワークである。 AiT Lossは外見に関連するコンポーネントの流れを乱し、モデルがモーション学習のみに集中するように誘導する。 JointTunerは、UNetベースのモデルとDiffusion Transformerベースのモデルの両方と互換性がある。
論文参考訳（メタデータ） (2025-03-31T11:04:07Z)
ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文参考訳（メタデータ） (2022-03-22T13:40:26Z)
Intrinsic Temporal Regularization for High-resolution Human Video Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文参考訳（メタデータ） (2020-12-11T05:29:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。