Fugu-MT 論文翻訳(概要): FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge

論文の概要: FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge

arxiv url: http://arxiv.org/abs/2505.14709v1
Date: Sat, 17 May 2025 05:00:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.638391
Title: FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge
Title（参考訳）: FastCar: Edge上の高速自動回帰ビデオ生成のためのキャッシュ注意リプレイ
Authors: Xuan Shen, Weize Ma, Yufa Zhou, Enhao Tang, Yanyue Xie, Zhengang Li, Yifan Gong, Quanyi Wang, Henghui Ding, Yiwei Wang, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu,
Abstract要約: 自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
参考スコア（独自算出の注目度）: 60.000984252907195
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Auto-regressive (AR) models, initially successful in language generation, have recently shown promise in visual generation tasks due to their superior sampling efficiency. Unlike image generation, video generation requires a substantially larger number of tokens to produce coherent temporal frames, resulting in significant overhead during the decoding phase. Our key observations are: (i) MLP modules in the decode phase dominate the inference latency, and (ii) there exists high temporal redundancy in MLP outputs of adjacent frames. In this paper, we propose the \textbf{FastCar} framework to accelerate the decode phase for the AR video generation by exploring the temporal redundancy. The Temporal Attention Score (TAS) is proposed to determine whether to apply the replay strategy (\textit{i.e.}, reusing cached MLP outputs from the previous frame to reduce redundant computations) with detailed theoretical analysis and justification. Also, we develop a hardware accelerator on FPGA with Dynamic Resource Scheduling (DRS) based on TAS to enable better resource utilization and faster inference. Experimental results demonstrate the effectiveness of our method, which outperforms traditional sparse attention approaches with more than 2.1x decoding speedup and higher energy efficiency on the edge. Furthermore, by combining FastCar and sparse attention, FastCar can boost the performance of sparse attention with alleviated drifting, demonstrating our unique advantages for high-resolution and long-duration video generation. Code: https://github.com/shawnricecake/fast-car
Abstract（参考訳）: 言語生成において最初に成功した自動回帰(AR)モデルは、サンプリング効率が優れているため、最近、視覚生成タスクにおいて有望であることが示されている。画像生成とは異なり、ビデオ生成はコヒーレントな時間フレームを生成するためにかなり多くのトークンを必要とする。私たちの重要な観察は以下のとおりです。 i)デコードフェーズにおけるMLPモジュールが推論遅延を支配し、 (II)隣接フレームのMLP出力には高時間冗長性が存在する。本稿では,時間的冗長性を探究し,ARビデオ生成のためのデコードフェーズを高速化するフレームワークである「textbf{FastCar}」を提案する。 TAS(Temporal Attention Score)は、より詳細な理論的解析と正当化により、前フレームからキャッシュされたMLP出力を再利用する再生戦略(\textit{i.e.})を適用するかどうかを決定するために提案される。また,TASに基づく動的資源スケジューリング(DRS)を用いたFPGA上でのハードウェアアクセラレータを開発し,より優れた資源利用と高速な推論を実現する。実験により,2.1倍以上のデコード速度とエッジでの高エネルギー効率で従来のスパースアテンションアプローチより優れる手法の有効性が示された。さらに、FastCarとスパースアテンションを組み合わせることで、スパースアテンションのパフォーマンスを緩和ドリフトにより向上させ、高解像度で長期の動画生成に特有の利点を示すことができる。コード:https://github.com/shawnricecake/fast-car

関連論文リスト

FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文参考訳（メタデータ） (2025-06-13T07:59:52Z)
Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers [22.349130691342687]
ビデオ拡散変換器 (vDiT) は, テキスト・ビデオ生成において顕著な進歩を遂げているが, その高い計算要求は, 実用的展開において大きな課題を呈している。本稿では,vDiTをベースとしたビデオ生成において,ほぼ最適設定を検索する自動フレームワークであるASTRAEAを紹介する。
論文参考訳（メタデータ） (2025-06-05T14:41:38Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。 CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文参考訳（メタデータ） (2024-08-26T12:59:32Z)
Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-28T08:32:19Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-23T17:58:05Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。