論文の概要: Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.02747v1
- Date: Wed, 3 Apr 2024 13:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:11:28.117046
- Title: Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
- Title(参考訳): テキストと画像の拡散モデルにおける推論が煩雑になる
- Authors: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber,
- Abstract要約: 本研究では,テキスト条件拡散モデルにおける推論におけるクロスアテンションの役割について検討する。
クロスアテンション出力は、わずかな推論ステップの後に一定点に収束する。
驚くべきことに、忠実度改善段階のテキスト条件を無視することは複雑さを減少させるだけでなく、モデル性能も維持する。
- 参考スコア(独自算出の注目度): 43.40869448604611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the role of cross-attention during inference in text-conditional diffusion models. We find that cross-attention outputs converge to a fixed point after few inference steps. Accordingly, the time point of convergence naturally divides the entire inference process into two stages: an initial semantics-planning stage, during which, the model relies on cross-attention to plan text-oriented visual semantics, and a subsequent fidelity-improving stage, during which the model tries to generate images from previously planned semantics. Surprisingly, ignoring text conditions in the fidelity-improving stage not only reduces computation complexity, but also maintains model performance. This yields a simple and training-free method called TGATE for efficient generation, which caches the cross-attention output once it converges and keeps it fixed during the remaining inference steps. Our empirical study on the MS-COCO validation set confirms its effectiveness. The source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.
- Abstract(参考訳): 本研究では,テキスト条件拡散モデルにおける推論におけるクロスアテンションの役割について検討する。
クロスアテンション出力は、わずかな推論ステップの後に一定点に収束する。
したがって、収束の時点は自然に推論過程全体を2段階に分割する: 最初のセマンティクス計画段階、その間、モデルはテキスト指向の視覚的意味論を計画するクロスアテンションに依存し、その後のフィデリティ改善段階、そしてモデルが以前に計画されたセマンティクスから画像を生成しようとする。
驚くべきことに、忠実度改善段階のテキスト条件を無視することは、計算の複雑さを減らすだけでなく、モデルの性能も維持する。
これにより、TGATEと呼ばれる単純でトレーニングなしの手法が効率よく生成され、収束するとクロスアテンション出力をキャッシュし、残りの推論ステップでそれを固定する。
MS-COCO検証セットに関する実証研究により,その有効性が確認された。
TGATEのソースコードはhttps://github.com/HaozheLiu-ST/T-GATEで公開されている。
関連論文リスト
- Towards Understanding the Working Mechanism of Text-to-Image Diffusion Model [57.24046436423511]
近年,高画質テキスト・トゥ・イメージ(T2I)生成に強力な遅延拡散確率モデル (DPM) が適用されている。
段階的デノナイジング生成過程における中間状態を調べることでDPMの背後にあるメカニズムを解明する。
本稿では,テキストガイダンスを適切に取り除き,T2I生成プロセスの高速化に本観測を適用した。
論文 参考訳(メタデータ) (2024-05-24T08:12:41Z) - Self-Supervised Learning of Time Series Representation via Diffusion Process and Imputation-Interpolation-Forecasting Mask [6.579109660479191]
Time Series Diffusion Embedding (TSDE)は、最初の拡散ベースのSSL TSRLアプローチである。
TSデータをImputation-Interpolation-Forecasting (IIF)マスクを使用して観察およびマスクされた部分に分割する。
トレーニング可能な埋め込み機能を適用し、クロスオーバー機構を備えたデュアル直交トランスフォーマーエンコーダを備えている。
論文 参考訳(メタデータ) (2024-05-09T17:55:16Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Improving Misaligned Multi-modality Image Fusion with One-stage
Progressive Dense Registration [67.23451452670282]
多モード画像間の相違は、画像融合の課題を引き起こす。
マルチスケールプログレッシブ・センス・レジストレーション方式を提案する。
このスキームは、一段階最適化のみで粗大な登録を行う。
論文 参考訳(メタデータ) (2023-08-22T03:46:24Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文 参考訳(メタデータ) (2021-10-02T00:54:39Z) - TTAN: Two-Stage Temporal Alignment Network for Few-shot Action
Recognition [29.95184808021684]
少数のサンプル(支援)を用いた新規なアクションクラス(クエリ)の認識を目的としたアクション認識
我々は,サポートサンプル間のミスアライメントを考慮に入れた,新しいマルチショットフュージョン戦略を考案した。
ベンチマークデータセットを用いた実験では,数発のアクション認識のための最先端性能を実現する上で,提案手法の可能性を示した。
論文 参考訳(メタデータ) (2021-07-10T07:22:49Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。