論文の概要: ORBIS: Output-Guided Token Reduction with Distribution-Aware Matching for Video Diffusion Acceleration
- arxiv url: http://arxiv.org/abs/2605.22015v1
- Date: Thu, 21 May 2026 05:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.521769
- Title: ORBIS: Output-Guided Token Reduction with Distribution-Aware Matching for Video Diffusion Acceleration
- Title(参考訳): ORBIS:映像拡散加速のための分布認識マッチングによる出力誘導型トークン削減
- Authors: Hangyeol Lee, Joo-Young Kim,
- Abstract要約: Diffusion Transformer (DiT) は高品質な画像やビデオを生成するための強力なモデルアーキテクチャとして登場した。
ビデオDiTのためのSW-HW共同設計アクセラレータであるORBISを提案する。
ORBISは最先端のアプローチであるAsymRnRよりも約2倍高いトークン還元率を示す。
- 参考スコア(独自算出の注目度): 2.918426765142262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT) has emerged as a powerful model architecture for generating high-quality images and videos. In the case of video DiT, 3D Spatio-Temporal Attention increases token length in proportion to the number of frames, sharply increasing computational cost. Token reduction methods mitigate this cost by exploiting spatial redundancy, but existing approaches rely on inaccurate similarity estimates and lightweight matching algorithms, resulting in poor matching quality and only marginal acceleration. To overcome these limitations, we propose ORBIS, an SW-HW co-designed accelerator for video DiT. ORBIS leverages the output activation from the previous timestep to obtain more accurate inter-token similarity, substantially improving matching quality and enabling a higher token reduction ratio. We further introduce a Distribution-Aware Token Matching (DATM) algorithm that captures global token distribution and explicitly minimizes token-pair loss for additional gains. To fully hide DATM latency, we design specialized, deeply pipelined hardware and minimize its hardware cost through quantization, occupying only 2.4% of total area with negligible accuracy loss. Extensive experiments show that ORBIS achieves about 2x higher token reduction ratio than the state-of-the-art approach, AsymRnR, while delivering up to 4.5x speedup and 79.3% energy reduction compared to an NVIDIA A100 GPU.
- Abstract(参考訳): Diffusion Transformer (DiT) は高品質な画像やビデオを生成するための強力なモデルアーキテクチャとして登場した。
ビデオDiTの場合、3次元時空間注意はフレーム数に比例してトークン長を増大させ、計算コストを急激に増加させる。
トケ還元法は空間冗長性を利用してこのコストを軽減するが、既存の手法では不正確な類似性推定と軽量マッチングアルゴリズムに依存しており、整合性は低く、限界加速度のみとなる。
これらの制限を克服するために、SW-HWと共同設計したビデオDiTアクセラレータであるORBISを提案する。
ORBISは、前のタイムステップからの出力活性化を利用して、より正確なトークン間類似性を得るとともに、マッチング品質を大幅に改善し、より高いトークン還元比を実現する。
さらに、グローバルなトークン分布を捕捉し、追加利得に対するトークン対損失を明示的に最小化する分散対応トークンマッチング(DATM)アルゴリズムを導入する。
DATMのレイテンシを完全に隠蔽するために、我々は専用で深くパイプライン化されたハードウェアを設計し、量子化によってハードウェアコストを最小化し、無視できる精度の損失で全領域の2.4%しか占めていない。
大規模な実験により、ORBISは最先端のアプローチであるAsymRnRよりも約2倍高いトークン還元比を達成し、NVIDIA A100 GPUと比較して最大4.5倍のスピードアップと79.3%のエネルギー還元を実現している。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。
モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。
モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文 参考訳(メタデータ) (2025-09-28T06:49:44Z) - ToMA: Token Merge with Attention for Diffusion Models [8.079656935981193]
拡散モデルは高忠実度画像生成において優れるが、トランスフォーマーの二次的注意複雑さによる拡張性に限界がある。
本稿では,GPU整列効率のトークン削減を否定する市販のToMA(Token Merge with Attention)を提案する。
ToMAはSDXL/Flux生成遅延を24%/23%削減する(DINO $Delta 0.07$)。
論文 参考訳(メタデータ) (2025-09-13T17:35:00Z) - DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。
textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
論文 参考訳(メタデータ) (2025-04-08T07:17:45Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Motion Guided Token Compression for Efficient Masked Video Modeling [7.548789718676737]
本稿では,フレーム毎秒(FPS)レートのエスカレーションによって達成された性能について述べる。
我々はまた、より小さいがより代表的なトークンセットを包括的ビデオ表現に活用するために、Transformerモデルに力を与える新しいアプローチ、Motion Guided Token Compression (MGTC)を提案する。
ビデオ認識データセットであるKinetics-400, UCF101, HMDB51を用いて, FPSレートの上昇により, 1.6, 1.6, 4.0以上の有意なTop-1精度が向上することが実証された。
論文 参考訳(メタデータ) (2024-01-10T07:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。