論文の概要: Efficient Text-Guided Convolutional Adapter for the Diffusion Model
- arxiv url: http://arxiv.org/abs/2602.14514v1
- Date: Mon, 16 Feb 2026 06:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.240563
- Title: Efficient Text-Guided Convolutional Adapter for the Diffusion Model
- Title(参考訳): 拡散モデルのための効率的なテキストガイド型畳み込み適応器
- Authors: Aryan Das, Koushik Biswas, Swalpa Kumar Roy, Badri Narayana Patro, Vinay Kumar Verma,
- Abstract要約: 構造保存条件生成(SPCG)のための拡散型フレームワークにNexus Adaptersを導入する。
本稿では,Nexus Prime と Slim の2つの効率的なアダプタを提案する。
我々はNexus Primeアダプタが性能を大幅に向上することを示し、ベースラインと比較して800万のパラメータしか必要としないことを示した。
- 参考スコア(独自算出の注目度): 14.937788304428992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters
- Abstract(参考訳): 構造保存条件生成(SPCG)のための拡散ベースのフレームワークに,新しいテキスト誘導型効率的なアダプタであるNexus Adaptersを導入する。
近年,プロンプト条件付けのためのベースモデルと,スケッチや深度マップなどの構造入力用アダプタを用いて,条件画像生成における有望な結果を達成している。
これらのアプローチは非常に非効率であり、ベースアーキテクチャと比較してアダプタで等しくパラメータを必要とすることがある。
拡散モデル自体が高価であるため、モデルをトレーニングすることは必ずしも不可能であり、パラメータを2倍にすることは非常に非効率である。
これらの手法では、アダプタは入力プロンプトを認識していないため、構造的なインプットにのみ最適であり、入力プロンプトには最適ではない。
上記の課題を克服するため、我々はNexus PrimeとSlimという2つの効率的なアダプタを提案しました。
各Nexus Blockには、リッチなマルチモーダルコンディショニングを可能にするクロスアテンション機構が組み込まれている。
そのため,提案アダプタは構造を保ちながら入力プロンプトをよりよく理解することができる。
提案したモデルについて広範な実験を行い,Nexus Primeアダプタは,ベースラインであるT2I-Adapterと比較して,8Mの追加パラメータしか必要とせず,性能を著しく向上することを示した。
さらに、T2I-Adapterよりもパラメータが18M少ない軽量Nexus Slimアダプタも導入しました。
コード:https://github.com/arya- domain/Nexus-Adapters
関連論文リスト
- Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。
ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文 参考訳(メタデータ) (2024-07-04T18:21:28Z) - Stylus: Automatic Adapter Selection for Diffusion Models [81.90482700433822]
本稿では,プロンプトのキーワードに基づいて,タスク固有のアダプタを効率的に選択し,自動生成するStylusを紹介する。
Stylus氏はまず、改善された記述と埋め込みでアダプタを要約し、関連するアダプタを検索し、さらにプロンプトのキーワードに基づいてアダプタを組み立てる3段階のアプローチを概説している。
論文 参考訳(メタデータ) (2024-04-29T17:59:16Z) - MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - A Comprehensive Analysis of Adapter Efficiency [20.63580880344425]
自然言語理解(NLU)タスクの場合, アダプタのパラメータ効率は, モデル全体の微調整に比べて, 効率向上に寄与しないことを示す。
NLUタスクの適度なサイズのモデルには、アダプタを使うのではなく、完全な微調整やマルチタスクのトレーニングに頼ることを推奨する。
論文 参考訳(メタデータ) (2023-05-12T14:05:45Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。