論文の概要: DynamicRad: Content-Adaptive Sparse Attention for Long Video Diffusion
- arxiv url: http://arxiv.org/abs/2604.20470v1
- Date: Wed, 22 Apr 2026 11:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.113131
- Title: DynamicRad: Content-Adaptive Sparse Attention for Long Video Diffusion
- Title(参考訳): DynamicRad: 長いビデオ拡散のためのコンテンツ適応スパース注意
- Authors: Yongji Long, Shijun Liang, Jintao Li, Yun Li,
- Abstract要約: textbfDynamicRadは、前のローカリティ内で適応的な選択を行う、統一されたスパースアテンションパラダイムを導入している。
この軽量プロジェクションモジュールマップは、textbfminimal オーバーヘッドで最適なスパーシティレシエーションにプロンプトする
- 参考スコア(独自算出の注目度): 11.227372103030428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the natural spatiotemporal energy decay in video diffusion offers a path to efficiency, yet relying solely on rigid static masks risks losing critical long-range information in complex dynamics. To address this issue, we propose \textbf{DynamicRad}, a unified sparse-attention paradigm that grounds adaptive selection within a radial locality prior. DynamicRad introduces a \textbf{dual-mode} strategy: \textit{static-ratio} for speed-optimized execution and \textit{dynamic-threshold} for quality-first filtering. To ensure robustness without online search overhead, we integrate an offline Bayesian Optimization (BO) pipeline coupled with a \textbf{semantic motion router}. This lightweight projection module maps prompt embeddings to optimal sparsity regimes with \textbf{minimal runtime overhead}. Unlike online profiling methods, our offline BO optimizes attention reconstruction error (MSE) on a physics-based proxy task, ensuring rapid convergence. Experiments on HunyuanVideo and Wan2.1-14B demonstrate that DynamicRad pushes the efficiency--quality Pareto frontier, achieving \textbf{1.7$\times$--2.5$\times$ inference speedups} with \textbf{over 80\% effective sparsity}. In some long-sequence settings, the dynamic mode even matches or exceeds the dense baseline, while mask-aware LoRA further improves long-horizon coherence. Code is available at https://github.com/Adamlong3/DynamicRad.
- Abstract(参考訳): ビデオ拡散における自然時空間エネルギー減衰の活用は効率の道を開くが、静的マスクのみに頼り、複雑な力学において重要な長距離情報を失うリスクがある。
この問題に対処するために,放射状局所性に適応的な選択を前提とした統一スパースアテンションパラダイムである \textbf{DynamicRad} を提案する。
DynamicRadは、速度最適化実行のための \textit{static-ratio} と品質優先フィルタリングのための \textit{dynamic-threshold} という、 \textbf{dual-mode} 戦略を導入している。
オンライン検索オーバーヘッドを伴わずにロバスト性を確保するため,オフラインベイズ最適化(BO)パイプラインとtextbf{semantic motion router} を統合した。
この軽量なプロジェクションモジュールは、 \textbf{minimal Runtime overhead} で最適なスパーシティレシエーションへの埋め込みを促す。
オンラインプロファイリングとは異なり、オフラインBOは物理ベースのプロキシタスクにおいて注意再構成誤差(MSE)を最適化し、迅速に収束する。
HunyuanVideo と Wan2.1-14B の実験では、DynamicRad が高効率な Pareto フロンティアを推進し、textbf{1.7$\times$-2.5$\times$ inference speedups} と \textbf{over 80\% effective sparsity} を達成している。
いくつかのロングシーケンス設定では、ダイナミックモードは密度の高いベースラインにマッチまたは超過するが、マスクを意識したLoRAはさらにロング水平コヒーレンスを改善している。
コードはhttps://github.com/Adamlong3/DynamicRadで入手できる。
関連論文リスト
- Le-DETR: Revisiting Real-Time Detection Transformer with Efficient Encoder Design [72.55935017828891]
我々は Le-DETR (textbfLow- Cost and textbfEfficient textbfDEtection textbfTRansformer) を提案する。
ImageNet1KとCOCO 2017トレーニングデータセットのみを使用して、リアルタイム検出で新しいtextbfSOTAを実現する。
YOLOv12-L/X を textbf+0.6/-0.1 mAP で上回り、同様の速度と textbf+20% のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-24T15:29:55Z) - Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention [28.598033369607723]
textscLight Forcingは、ARビデオ生成モデルに適した、テキストファーストのスパースアテンションソリューションである。
textitChunk-Aware Growthメカニズムを組み込んで,各チャンクのコントリビューションを定量的に見積もる。
また,情報的歴史的・局所的文脈を粗い方法で捉えるために,テキストスパース注意を導入する。
論文 参考訳(メタデータ) (2026-02-04T17:41:53Z) - Just in time Informed Trees: Manipulability-Aware Asymptotically Optimized Motion Planning [46.553063931217245]
我々はJust-in-Time Informed Trees (JIT*)アルゴリズムを導入し、Effort Informed Trees (EIT*) を拡張した。
JIT* は $mathbbR4$ から $mathbbR16$ まで、従来のサンプリングベースのプランナよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-27T18:58:51Z) - SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation [16.34443339642213]
textbfX-FlashTalkは、textbf32 FPSのリアルタイムスループットを達成しながら、textbfsub秒の起動遅延(0.87秒)を達成する14Bスケールのシステムである。
SoulX-FlashTalkは、Textbf32 FPSのリアルタイムスループットを達成しつつ、Textbfsub秒の起動遅延(0.87秒)を達成する最初の14Bスケールシステムである。
論文 参考訳(メタデータ) (2025-12-29T11:18:24Z) - Sparse by Rule: Probability-Based N:M Pruning for Spiking Neural Networks [66.61171793101872]
スパイキングニューラルネットワーク(SNN)は、イベント駆動のスパース計算を通じてエネルギー効率の高いインテリジェンスを約束するが、より深いアーキテクチャはパラメータと計算コストを増大させ、エッジデプロイメントを妨げている。
SNNプルーニングの最近の進歩は、この負担を軽減するのに役立っているが、既存の取り組みは、スパシティが高いが一般的なハードウェアでは加速が難しいインハン構造化プルーニング(emphunstructured pruning)と、デプロイが容易だが柔軟性に欠けるエンハン構造化プルーニング(emphstructured pruning)の2つのファミリーに限られる。
最初のSNNであるbfSpikeNMを紹介する。
論文 参考訳(メタデータ) (2025-11-15T08:23:20Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - NOOUGAT: Towards Unified Online and Offline Multi-Object Tracking [31.46043749958963]
NOOUGATは、任意の時間的水平線で操作する最初のトラッカーである。
DanceTrackでは+2.3、SportsMOTでは+9.2、MOT20では+5.0、テキストオフラインモードでは+5.0に改善されている。
論文 参考訳(メタデータ) (2025-09-02T09:08:24Z) - DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation [66.86241453156225]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
textbfDynamic textbfDiffusion textbfTransformer (DyDiT)を提案する。
DyDiTは、その計算を時間ステップと空間次元の両方に沿って調整する。
論文 参考訳(メタデータ) (2025-04-09T11:48:37Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。