論文の概要: Simple Drop-in LoRA Conditioning on Attention Layers Will Improve Your Diffusion Model
- arxiv url: http://arxiv.org/abs/2405.03958v3
- Date: Fri, 04 Oct 2024 09:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:24.896492
- Title: Simple Drop-in LoRA Conditioning on Attention Layers Will Improve Your Diffusion Model
- Title(参考訳): 注意層上でのシンプルなドロップインロラ条件は拡散モデルを改善する
- Authors: Joo Young Choi, Jaesung R. Park, Inkyu Park, Jaewoong Cho, Albert No, Ernest K. Ryu,
- Abstract要約: 現在の最先端拡散モデルでは、畳み込み層と(qkv)自己アテンション層を含むU-Netアーキテクチャを採用している。
U-Netアーキテクチャの他の部分を変更したり調整したりすることなく、LoRAコンディショニングをアテンション層に追加するだけで、画像生成の品質が向上することを示す。
- 参考スコア(独自算出の注目度): 18.138932199576917
- License:
- Abstract: Current state-of-the-art diffusion models employ U-Net architectures containing convolutional and (qkv) self-attention layers. The U-Net processes images while being conditioned on the time embedding input for each sampling step and the class or caption embedding input corresponding to the desired conditional generation. Such conditioning involves scale-and-shift operations to the convolutional layers but does not directly affect the attention layers. While these standard architectural choices are certainly effective, not conditioning the attention layers feels arbitrary and potentially suboptimal. In this work, we show that simply adding LoRA conditioning to the attention layers without changing or tuning the other parts of the U-Net architecture improves the image generation quality. For example, a drop-in addition of LoRA conditioning to EDM diffusion model yields FID scores of 1.91/1.75 for unconditional and class-conditional CIFAR-10 generation, improving upon the baseline of 1.97/1.79.
- Abstract(参考訳): 現在の最先端拡散モデルでは、畳み込み層と(qkv)自己アテンション層を含むU-Netアーキテクチャを採用している。
U-Netは、サンプリングステップ毎にタイム埋め込み入力と、所望の条件生成に対応するクラスまたはキャプション埋め込み入力とに基づいて、条件付きで画像を処理する。
このような条件付けは、畳み込み層へのスケール・アンド・シフト操作を含むが、注意層に直接影響しない。
これらの標準的なアーキテクチャ選択は確かに有効であるが、注意層を条件付けしないことは任意であり、潜在的に最適であると感じている。
本研究では,U-Netアーキテクチャの他の部分を変更・調整することなく,LoRAコンディショニングをアテンション層に追加するだけで画像生成品質が向上することを示す。
例えば、EDM拡散モデルにLoRA条件を付加すると、不条件およびクラス条件のCIFAR-10生成に対するFIDスコアが 1.91/1.75 となり、ベースラインが 1.97/1.79 となる。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - SeaDAG: Semi-autoregressive Diffusion for Conditional Directed Acyclic Graph Generation [83.52157311471693]
方向性非巡回グラフ(DAG)の条件生成のための半自己回帰拡散モデルSeaDAGを紹介する。
グローバルグラフ構造を欠いた従来の自己回帰生成とは異なり,本手法は拡散ステップ毎に完全なグラフ構造を保持する。
本研究では,現実的なDAGを生成する拡散モデルの能力を高めるために,条件損失を伴うグラフ条件学習を明示的に訓練する。
論文 参考訳(メタデータ) (2024-10-21T15:47:03Z) - Strengthening Layer Interaction via Dynamic Layer Attention [12.341997220052486]
既存のレイヤーアテンション手法は固定された特徴写像上の層間相互作用を静的に達成する。
注意機構の動的コンテキスト表現能力を復元するために,動的レイヤアテンションアーキテクチャを提案する。
実験の結果,提案したDLAアーキテクチャの有効性が示され,画像認識や物体検出タスクにおける他の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-19T09:35:14Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。
我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文 参考訳(メタデータ) (2023-08-30T14:49:34Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Dynamic Scene Deblurring Base on Continuous Cross-Layer Attention
Transmission [6.3482616879743885]
我々は,すべての畳み込み層からの階層的注意情報を活用するための,新しい連続的層間注意伝達(CCLAT)機構を導入する。
RDAFB をビルディングブロックとし,RDAFNet という動的シーン分離のための効果的なアーキテクチャを設計する。
ベンチマークデータセットの実験では、提案されたモデルが最先端のデブロワーリングアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-23T04:55:13Z) - Adaptive Cross-Layer Attention for Image Restoration [10.795382525098917]
非局所的な注意プロセスは各レイヤの特徴を別々に扱うため、異なるレイヤ間の特徴の相関を欠くリスクがある。
本稿では,新しいアダプティブ・クロスレイア・アテンション(ACLA)モジュールを提案する。
1) 各層における非局所的注意のためのキーを適応的に選択すること,(2)ACLAモジュールの挿入位置を自動的に検索すること,の2つの適応設計を提案する。
論文 参考訳(メタデータ) (2022-03-04T22:16:18Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。