論文の概要: Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model
- arxiv url: http://arxiv.org/abs/2501.00946v1
- Date: Wed, 01 Jan 2025 20:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:19.672580
- Title: Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model
- Title(参考訳): Cached Adaptive Token Merging:拡散モデルにおける動的トークン削減と冗長計算除去
- Authors: Omid Saghatchian, Atiyeh Gh. Moghadam, Ahmad Nickabadi,
- Abstract要約: 拡散モデルは高い計算コストと遅い推論によって妨げられる。
そのようなアプローチの1つは、トークンマージ(ToMe)として知られる自己アテンションに供給されるトークンの数を減らすことに焦点を当てている。
- 参考スコア(独自算出の注目度): 2.580765958706854
- License:
- Abstract: Diffusion models have emerged as a promising approach for generating high-quality, high-dimensional images. Nevertheless, these models are hindered by their high computational cost and slow inference, partly due to the quadratic computational complexity of the self-attention mechanisms with respect to input size. Various approaches have been proposed to address this drawback. One such approach focuses on reducing the number of tokens fed into the self-attention, known as token merging (ToMe). In our method, which is called cached adaptive token merging(CA-ToMe), we calculate the similarity between tokens and then merge the r proportion of the most similar tokens. However, due to the repetitive patterns observed in adjacent steps and the variation in the frequency of similarities, we aim to enhance this approach by implementing an adaptive threshold for merging tokens and adding a caching mechanism that stores similar pairs across several adjacent steps. Empirical results demonstrate that our method operates as a training-free acceleration method, achieving a speedup factor of 1.24 in the denoising process while maintaining the same FID scores compared to existing approaches.
- Abstract(参考訳): 拡散モデルは高品質な高次元画像を生成するための有望なアプローチとして現れてきた。
しかしながら、これらのモデルは高い計算コストと遅い推論によって妨げられている。
この欠点に対処する様々なアプローチが提案されている。
そのようなアプローチの1つは、トークンマージ(ToMe)として知られる自己アテンションに供給されるトークンの数を減らすことに焦点を当てている。
キャッシュ適応トークンマージ(CA-ToMe)と呼ばれる手法では,トークン間の類似性を計算し,最も類似したトークンのr割合をマージする。
しかし, 隣接するステップで観測される繰り返しパターンと類似度頻度の変化から, トークンをマージするための適応しきい値を実装し, 類似のペアを複数のステップにまたがって格納するキャッシング機構を追加することにより, このアプローチを強化することを目指している。
実験により,本手法はトレーニングフリー加速法として動作し,従来の手法と同等のFIDスコアを維持しつつ,デノナイジング過程において1.24の高速化係数を達成できることを示した。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Deep Hashing via Householder Quantization [3.106177436374861]
ハッシュは大規模な画像類似検索の中心にある。
一般的な解決策は、類似性学習項と量子化ペナルティ項を組み合わせた損失関数を採用することである。
本稿では,学習問題を2段階に分解する量子化戦略を提案する。
論文 参考訳(メタデータ) (2023-11-07T18:47:28Z) - Which Tokens to Use? Investigating Token Reduction in Vision
Transformers [64.99704164972513]
4つの画像分類データセットを用いた10種類のトークン削減手法の削減パターンについて検討した。
トップKプルーニング法は驚くほど強力なベースラインであることがわかった。
リダクションパターンの類似性は、モデルパフォーマンスの適度なプロキシである。
論文 参考訳(メタデータ) (2023-08-09T01:51:07Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。