Fugu-MT 論文翻訳(概要): Simple Drop-in LoRA Conditioning on Attention Layers Will Improve Your Diffusion Model

論文の概要: Simple Drop-in LoRA Conditioning on Attention Layers Will Improve Your Diffusion Model

arxiv url: http://arxiv.org/abs/2405.03958v3
Date: Fri, 04 Oct 2024 09:40:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 09:25:37.306991
Title: Simple Drop-in LoRA Conditioning on Attention Layers Will Improve Your Diffusion Model
Title（参考訳）: 注意層上でのシンプルなドロップインロラ条件は拡散モデルを改善する
Authors: Joo Young Choi, Jaesung R. Park, Inkyu Park, Jaewoong Cho, Albert No, Ernest K. Ryu,
Abstract要約: 現在の最先端拡散モデルでは、畳み込み層と(qkv)自己アテンション層を含むU-Netアーキテクチャを採用している。 U-Netアーキテクチャの他の部分を変更したり調整したりすることなく、LoRAコンディショニングをアテンション層に追加するだけで、画像生成の品質が向上することを示す。
参考スコア（独自算出の注目度）: 18.138932199576917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current state-of-the-art diffusion models employ U-Net architectures containing convolutional and (qkv) self-attention layers. The U-Net processes images while being conditioned on the time embedding input for each sampling step and the class or caption embedding input corresponding to the desired conditional generation. Such conditioning involves scale-and-shift operations to the convolutional layers but does not directly affect the attention layers. While these standard architectural choices are certainly effective, not conditioning the attention layers feels arbitrary and potentially suboptimal. In this work, we show that simply adding LoRA conditioning to the attention layers without changing or tuning the other parts of the U-Net architecture improves the image generation quality. For example, a drop-in addition of LoRA conditioning to EDM diffusion model yields FID scores of 1.91/1.75 for unconditional and class-conditional CIFAR-10 generation, improving upon the baseline of 1.97/1.79.
Abstract（参考訳）: 現在の最先端拡散モデルでは、畳み込み層と(qkv)自己アテンション層を含むU-Netアーキテクチャを採用している。 U-Netは、サンプリングステップ毎にタイム埋め込み入力と、所望の条件生成に対応するクラスまたはキャプション埋め込み入力とに基づいて、条件付きで画像を処理する。このような条件付けは、畳み込み層へのスケール・アンド・シフト操作を含むが、注意層に直接影響しない。これらの標準的なアーキテクチャ選択は確かに有効であるが、注意層を条件付けしないことは任意であり、潜在的に最適であると感じている。本研究では,U-Netアーキテクチャの他の部分を変更・調整することなく,LoRAコンディショニングをアテンション層に追加するだけで画像生成品質が向上することを示す。例えば、EDM拡散モデルにLoRA条件を付加すると、不条件およびクラス条件のCIFAR-10生成に対するFIDスコアが 1.91/1.75 となり、ベースラインが 1.97/1.79 となる。

関連論文リスト

Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing [60.102602955261084]
Implicit Structure Locking (ISLock)は、ARビジュアルモデルのためのトレーニング不要な編集戦略である。本手法は,自己注意パターンと参照画像とを動的にアライメントすることで,構造的青写真を保存する。我々の研究は、ARベースの画像編集を効率的かつ柔軟なものにする方法を開拓し、拡散と自己回帰生成モデルのパフォーマンスギャップをさらに埋めることに成功した。
論文参考訳（メタデータ） (2025-04-14T17:25:19Z)
ARFlow: Autoregressive Flow with Hybrid Linear Attention [48.707933347079894]
フローモデルは、徐々に現実的なイメージを生成するのに効果的である。彼らは、生成プロセス中に長距離依存関係をキャプチャするのに苦労します。本稿では,自動回帰モデリングをフローモデルに統合することを提案する。
論文参考訳（メタデータ） (2025-01-27T14:33:27Z)
Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。 Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。 7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文参考訳（メタデータ） (2024-11-27T18:30:08Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
SeaDAG: Semi-autoregressive Diffusion for Conditional Directed Acyclic Graph Generation [83.52157311471693]
方向性非巡回グラフ(DAG)の条件生成のための半自己回帰拡散モデルSeaDAGを紹介する。グローバルグラフ構造を欠いた従来の自己回帰生成とは異なり,本手法は拡散ステップ毎に完全なグラフ構造を保持する。本研究では,現実的なDAGを生成する拡散モデルの能力を高めるために,条件損失を伴うグラフ条件学習を明示的に訓練する。
論文参考訳（メタデータ） (2024-10-21T15:47:03Z)
Strengthening Layer Interaction via Dynamic Layer Attention [12.341997220052486]
既存のレイヤーアテンション手法は固定された特徴写像上の層間相互作用を静的に達成する。注意機構の動的コンテキスト表現能力を復元するために,動的レイヤアテンションアーキテクチャを提案する。実験の結果,提案したDLAアーキテクチャの有効性が示され,画像認識や物体検出タスクにおける他の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-06-19T09:35:14Z)
A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文参考訳（メタデータ） (2024-05-31T21:47:05Z)
DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文参考訳（メタデータ） (2023-12-12T06:07:21Z)
Semantic Image Synthesis via Class-Adaptive Cross-Attention [7.147779225315707]
SPADEの代わりにクロスアテンション層を用いて形状型相関を学習し、画像生成プロセスの条件付けを行う。我々のモデルはSPADEの汎用性を継承し、同時に最先端の世代品質を得るとともに、グローバルおよびローカルスタイルの転送を改善する。
論文参考訳（メタデータ） (2023-08-30T14:49:34Z)
Hierarchical Feature Alignment Network for Unsupervised Video Object Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文参考訳（メタデータ） (2022-07-18T10:10:14Z)
Dynamic Scene Deblurring Base on Continuous Cross-Layer Attention Transmission [6.3482616879743885]
我々は,すべての畳み込み層からの階層的注意情報を活用するための,新しい連続的層間注意伝達(CCLAT)機構を導入する。 RDAFB をビルディングブロックとし,RDAFNet という動的シーン分離のための効果的なアーキテクチャを設計する。ベンチマークデータセットの実験では、提案されたモデルが最先端のデブロワーリングアプローチよりも優れていることが示されている。
論文参考訳（メタデータ） (2022-06-23T04:55:13Z)
Adaptive Cross-Layer Attention for Image Restoration [10.795382525098917]
非局所的な注意プロセスは各レイヤの特徴を別々に扱うため、異なるレイヤ間の特徴の相関を欠くリスクがある。本稿では,新しいアダプティブ・クロスレイア・アテンション(ACLA)モジュールを提案する。 1) 各層における非局所的注意のためのキーを適応的に選択すること,(2)ACLAモジュールの挿入位置を自動的に検索すること,の2つの適応設計を提案する。
論文参考訳（メタデータ） (2022-03-04T22:16:18Z)
Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文参考訳（メタデータ） (2020-04-08T09:07:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。