論文の概要: Stylus: Automatic Adapter Selection for Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.18928v1
- Date: Mon, 29 Apr 2024 17:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:39:07.399261
- Title: Stylus: Automatic Adapter Selection for Diffusion Models
- Title(参考訳): Stylus:拡散モデルの自動アダプタ選択
- Authors: Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica,
- Abstract要約: 本稿では,プロンプトのキーワードに基づいて,タスク固有のアダプタを効率的に選択し,自動生成するStylusを紹介する。
Stylus氏はまず、改善された記述と埋め込みでアダプタを要約し、関連するアダプタを検索し、さらにプロンプトのキーワードに基づいてアダプタを組み立てる3段階のアプローチを概説している。
- 参考スコア(独自算出の注目度): 81.90482700433822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.
- Abstract(参考訳): より多くのデータやパラメータでベースモデルをスケーリングする以外に、微調整のアダプタは、コスト削減で高忠実でカスタムなイメージを生成する代替手段を提供する。
そのため、アダプタはオープンソースコミュニティで広く採用されており、100K以上のアダプタのデータベースを蓄積している。
本稿では, 実装アダプタの性能向上を浮き彫りにした最近の研究に基づいて, 関連するアダプタの集合にプロンプトを合わせる問題について考察する。
本稿では,プロンプトのキーワードに基づいて,タスク固有のアダプタを効率的に選択し,自動生成するStylusを紹介する。
Stylus氏はまず、改善された記述と埋め込みでアダプタを要約し、関連するアダプタを検索し、さらにプロンプトのキーワードに基づいてアダプタを組み立てる3段階のアプローチを概説している。
Stylusの評価のために,75Kアダプタとプレ計算アダプタを組み込んだキュレートデータセットであるStylusDocsを開発した。
安定拡散チェックポイントの評価において、StylusはCLIP-FID Pareto効率を向上し、ベースモデルよりも人間やマルチモーダルモデルの方が2倍好適である。
詳しくは stylus-diffusion.github.io を参照。
関連論文リスト
- HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter [19.557300178619382]
本稿では,下流タスクに対するVLMのチューニングを実現するために,新しいヘテロジニアスグラフアダプタを提案する。
我々は、下流タスクの多モード構造知識を探索するために、特定の不均一グラフニューラルネットワークを用いる。
11のベンチマークデータセットの実験結果は、提案したHeGraphAdapterの有効性とメリットを示している。
論文 参考訳(メタデータ) (2024-10-10T12:20:58Z) - Adapters Strike Back [10.490880056507198]
我々は、アダプタ、内部構造、および様々な実装選択について詳細に研究する。
我々は、Adapter+と呼ばれる具体的かつ改良されたアダプタアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T22:07:57Z) - Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models [12.230087530720652]
本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
アダプタは単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成されている。
論文 参考訳(メタデータ) (2024-03-25T17:21:56Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling [78.62723847797382]
我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
論文 参考訳(メタデータ) (2021-11-06T18:09:22Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。