論文の概要: Faster Diffusion via Temporal Attention Decomposition
- arxiv url: http://arxiv.org/abs/2404.02747v2
- Date: Wed, 17 Jul 2024 23:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:01:57.099210
- Title: Faster Diffusion via Temporal Attention Decomposition
- Title(参考訳): テンポラルアテンション分解による高速拡散
- Authors: Haozhe Liu, Wentian Zhang, Jinheng Xie, Francesco Faccio, Mengmeng Xu, Tao Xiang, Mike Zheng Shou, Juan-Manuel Perez-Rua, Jürgen Schmidhuber,
- Abstract要約: テキスト条件拡散モデルにおける推論における注意機構の役割について検討する。
我々は、時間的注意づけ(TGATE)として知られるトレーニング不要の手法を開発した。
TGATEは、スケジュールされた時間ステップで注意出力をキャッシュして再利用することで、効率的に画像を生成する。
- 参考スコア(独自算出の注目度): 77.90640748930178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the role of attention mechanism during inference in text-conditional diffusion models. Empirical observations suggest that cross-attention outputs converge to a fixed point after several inference steps. The convergence time naturally divides the entire inference process into two phases: an initial phase for planning text-oriented visual semantics, which are then translated into images in a subsequent fidelity-improving phase. Cross-attention is essential in the initial phase but almost irrelevant thereafter. However, self-attention initially plays a minor role but becomes crucial in the second phase. These findings yield a simple and training-free method known as temporally gating the attention (TGATE), which efficiently generates images by caching and reusing attention outputs at scheduled time steps. Experimental results show when widely applied to various existing text-conditional diffusion models, TGATE accelerates these models by 10%-50%. The code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.
- Abstract(参考訳): テキスト条件拡散モデルにおける推論における注意機構の役割について検討する。
経験的観察は、いくつかの推論ステップの後、交差注意出力が固定点に収束することを示唆している。
収束時間は自然に推論プロセス全体を2つのフェーズに分割する: テキスト指向の視覚的意味論を計画するための初期フェーズ。
クロスアテンションは初期段階で必須であるが、その後はほとんど無関係である。
しかし、自己意識は最初はマイナーな役割を果たしたが、第2フェーズでは重要な役割を担っている。
これらの結果から,時間的ゲーティング(TGATE)と呼ばれる簡易かつ訓練のない手法が得られた。
実験結果から、既存のテキスト条件拡散モデルに広く適用された場合、TGATEはこれらのモデルを10%-50%高速化する。
TGATEのコードはhttps://github.com/HaozheLiu-ST/T-GATEで公開されている。
関連論文リスト
- Towards Understanding the Working Mechanism of Text-to-Image Diffusion Model [57.24046436423511]
近年,高画質テキスト・トゥ・イメージ(T2I)生成に強力な遅延拡散確率モデル (DPM) が適用されている。
段階的デノナイジング生成過程における中間状態を調べることでDPMの背後にあるメカニズムを解明する。
本稿では,テキストガイダンスを適切に取り除き,T2I生成プロセスの高速化に本観測を適用した。
論文 参考訳(メタデータ) (2024-05-24T08:12:41Z) - Self-Supervised Learning of Time Series Representation via Diffusion Process and Imputation-Interpolation-Forecasting Mask [6.579109660479191]
Time Series Diffusion Embedding (TSDE)は、最初の拡散ベースのSSL TSRLアプローチである。
TSデータをImputation-Interpolation-Forecasting (IIF)マスクを使用して観察およびマスクされた部分に分割する。
トレーニング可能な埋め込み機能を適用し、クロスオーバー機構を備えたデュアル直交トランスフォーマーエンコーダを備えている。
論文 参考訳(メタデータ) (2024-05-09T17:55:16Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文 参考訳(メタデータ) (2021-10-02T00:54:39Z) - TTAN: Two-Stage Temporal Alignment Network for Few-shot Action
Recognition [29.95184808021684]
少数のサンプル(支援)を用いた新規なアクションクラス(クエリ)の認識を目的としたアクション認識
我々は,サポートサンプル間のミスアライメントを考慮に入れた,新しいマルチショットフュージョン戦略を考案した。
ベンチマークデータセットを用いた実験では,数発のアクション認識のための最先端性能を実現する上で,提案手法の可能性を示した。
論文 参考訳(メタデータ) (2021-07-10T07:22:49Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。