論文の概要: FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge
- arxiv url: http://arxiv.org/abs/2505.14709v1
- Date: Sat, 17 May 2025 05:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.638391
- Title: FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge
- Title(参考訳): FastCar: Edge上の高速自動回帰ビデオ生成のためのキャッシュ注意リプレイ
- Authors: Xuan Shen, Weize Ma, Yufa Zhou, Enhao Tang, Yanyue Xie, Zhengang Li, Yifan Gong, Quanyi Wang, Henghui Ding, Yiwei Wang, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu,
- Abstract要約: 自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.000984252907195
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Auto-regressive (AR) models, initially successful in language generation, have recently shown promise in visual generation tasks due to their superior sampling efficiency. Unlike image generation, video generation requires a substantially larger number of tokens to produce coherent temporal frames, resulting in significant overhead during the decoding phase. Our key observations are: (i) MLP modules in the decode phase dominate the inference latency, and (ii) there exists high temporal redundancy in MLP outputs of adjacent frames. In this paper, we propose the \textbf{FastCar} framework to accelerate the decode phase for the AR video generation by exploring the temporal redundancy. The Temporal Attention Score (TAS) is proposed to determine whether to apply the replay strategy (\textit{i.e.}, reusing cached MLP outputs from the previous frame to reduce redundant computations) with detailed theoretical analysis and justification. Also, we develop a hardware accelerator on FPGA with Dynamic Resource Scheduling (DRS) based on TAS to enable better resource utilization and faster inference. Experimental results demonstrate the effectiveness of our method, which outperforms traditional sparse attention approaches with more than 2.1x decoding speedup and higher energy efficiency on the edge. Furthermore, by combining FastCar and sparse attention, FastCar can boost the performance of sparse attention with alleviated drifting, demonstrating our unique advantages for high-resolution and long-duration video generation. Code: https://github.com/shawnricecake/fast-car
- Abstract(参考訳): 言語生成において最初に成功した自動回帰(AR)モデルは、サンプリング効率が優れているため、最近、視覚生成タスクにおいて有望であることが示されている。
画像生成とは異なり、ビデオ生成はコヒーレントな時間フレームを生成するためにかなり多くのトークンを必要とする。
私たちの重要な観察は以下のとおりです。
i)デコードフェーズにおけるMLPモジュールが推論遅延を支配し、
(II)隣接フレームのMLP出力には高時間冗長性が存在する。
本稿では,時間的冗長性を探究し,ARビデオ生成のためのデコードフェーズを高速化するフレームワークである「textbf{FastCar}」を提案する。
TAS(Temporal Attention Score)は、より詳細な理論的解析と正当化により、前フレームからキャッシュされたMLP出力を再利用する再生戦略(\textit{i.e.})を適用するかどうかを決定するために提案される。
また,TASに基づく動的資源スケジューリング(DRS)を用いたFPGA上でのハードウェアアクセラレータを開発し,より優れた資源利用と高速な推論を実現する。
実験により,2.1倍以上のデコード速度とエッジでの高エネルギー効率で従来のスパースアテンションアプローチより優れる手法の有効性が示された。
さらに、FastCarとスパースアテンションを組み合わせることで、スパースアテンションのパフォーマンスを緩和ドリフトにより向上させ、高解像度で長期の動画生成に特有の利点を示すことができる。
コード:https://github.com/shawnricecake/fast-car
関連論文リスト
- Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。