Fugu-MT 論文翻訳(概要): FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

論文の概要: FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

arxiv url: http://arxiv.org/abs/2603.07192v1
Date: Sat, 07 Mar 2026 13:05:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:14.004048
Title: FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis
Title（参考訳）: FastSTAR: 効率的な自己回帰ビデオ合成のための時空間トケプルーニング
Authors: Sungwoong Yune, Suheon Jeong, Joo-Young Kim,
Abstract要約: FastSTARは、高品質のビデオ生成用に設計されたトレーニング不要のアクセラレーションフレームワークである。 InfinityStarの実験結果によると、FastSTARはPSNRが28.29で2.01倍のスピードアップを達成した。
参考スコア（独自算出の注目度）: 1.8320252176005443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Autoregressive modeling (VAR) has emerged as a highly efficient alternative to diffusion-based frameworks, achieving comparable synthesis quality. However, as this paradigm extends to Spacetime Autoregressive modeling (STAR) for video generation, scaling resolution and frame counts leads to a "token explosion" that creates a massive computational bottleneck in the final refinement stages. To address this, we propose FastSTAR, a training-free acceleration framework designed for high-quality video generation. Our core method, Spatiotemporal Token Pruning, identifies essential tokens by integrating two specialized terms: (1) Spatial similarity, which evaluates structural convergence across hierarchical scales to skip computations in regions where further refinement becomes redundant, and (2) Temporal similarity, which identifies active motion trajectories by assessing feature-level variations relative to the preceding clip. Combined with a Partial Update mechanism, FastSTAR ensures that only non-converged regions are refined, maintaining fluid motion while bypassing redundant computations. Experimental results on InfinityStar demonstrate that FastSTAR achieves up to a 2.01x speedup with a PSNR of 28.29 and less than 1% performance degradation, proving a superior efficiency-quality trade-off for STAR-based video synthesis.
Abstract（参考訳）: Visual Autoregressive Modeling (VAR) は拡散ベースのフレームワークの高効率な代替品として登場し、同等の合成品質を実現している。しかし、このパラダイムがビデオ生成のための時空自己回帰モデリング(STAR)にまで拡張されるにつれて、スケールの解像度とフレームのカウントは「トーケン爆発」を引き起こし、最終改良段階において膨大な計算ボトルネックを生み出す。そこで本稿では,高品質なビデオ生成のためのトレーニングフリーアクセラレーションフレームワークであるFastSTARを提案する。本研究では, 空間的類似性 (空間的類似性) と, 空間的類似性 (空間的類似性) と, 空間的類似性 (時間的類似性) を, 空間的類似性 (空間的類似性) と, 空間的類似性 (時間的類似性) を, 空間的類似性 (空間的類似性) と, 空間的類似性 (空間的類似性) を, 空間的類似性 (空間的類似性) と, 空間的類似性 (空間的類似性) と, 空間的類似性 (空間的類似性) と, 空間的類似性(空間的類似性) と, 時間的類似性(時間的類似性) を, 時間的類似性(時間的類似性) とを関連づけた。部分的な更新メカニズムと組み合わせて、FastSTARは冗長な計算をバイパスしながら流体運動を維持しながら、非収束領域のみが洗練されることを保証する。 InfinityStarの実験結果によると、FastSTARはPSNRが28.29で2.01倍のスピードアップを達成し、1%未満の性能劣化を達成し、STARベースのビデオ合成において優れた効率品質のトレードオフが証明された。

関連論文リスト

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness [7.596181361033662]
DiT(Diffusion Transformer)は、集中的なフルアテンション計算を必要とする。私たちは、この洞察を効率的な地域認識生成に活用する、トレーニング不要のフレームワークであるJanoを紹介します。 Janoは、生成品質を維持しながら、相当な加速(平均2.0倍のスピードアップ、2.4倍)を達成する。
論文参考訳（メタデータ） (2026-02-28T07:35:01Z)
FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。 FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。 FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文参考訳（メタデータ） (2025-12-04T16:21:38Z)
Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。 EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。 Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文参考訳（メタデータ） (2025-12-04T11:12:13Z)
Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。 EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-10-04T15:23:07Z)
POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models [18.761042377485367]
POSE(Phased One-Step Equilibrium)は、大規模ビデオ拡散モデルのサンプリングステップを削減する蒸留フレームワークである。 PSEはVBench-I2V上の他の加速度法よりもセマンティックアライメント,時間的会議,フレーム品質が平均7.15%向上していることを示す。
論文参考訳（メタデータ） (2025-08-28T17:20:01Z)
Astraea: A Token-wise Acceleration Framework for Video Diffusion Transformers [29.130090574300635]
ビデオ拡散変換器(vDiTs)は、テキストからビデオへの生成において大きな進歩を遂げているが、その計算要求は、実用的な展開において大きな課題となっている。 Astraeaは,vDiTをベースとしたビデオ生成の最適に近い構成を,パフォーマンス目標下で検索するフレームワークである。
論文参考訳（メタデータ） (2025-06-05T14:41:38Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。