論文の概要: KIND: Knowledge Integration and Diversion in Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.07337v1
- Date: Wed, 14 Aug 2024 07:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:13:57.278690
- Title: KIND: Knowledge Integration and Diversion in Diffusion Models
- Title(参考訳): KIND:拡散モデルにおける知識統合と拡散
- Authors: Yucheng Xie, Fu Feng, Jing Wang, Xin Geng, Yong Rui,
- Abstract要約: 拡散モデルにおいてtextbfKnowledge textbfINtegration と textbfDiversion を実行する textbfKIND を導入する。
KINDは、現在のタスクにおけるモデルパフォーマンスの最大化から、伝達可能な共通知識の凝縮までのトレーニング目標を調整することで、従来の事前学習手法を再定義する。
その結果,KINDは,他のPEFT法や学習遺伝子法と比較して最先端の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 40.442303050947395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models have become the preferred backbone due to the expansion of model parameters, with techniques like Parameter-Efficient Fine-Tuning (PEFTs) typically fixing the parameters of these models. However, pre-trained models may not always be optimal, especially when there are discrepancies between training tasks and target tasks, potentially resulting in negative transfer. To address this, we introduce \textbf{KIND}, which performs \textbf{K}nowledge \textbf{IN}tegration and \textbf{D}iversion in diffusion models. KIND first integrates knowledge by decomposing parameter matrices of models using $U$, $\Sigma$, and $V$ matrices, formally inspired by singular value decomposition (SVD). Then it explicitly partitions the components of these matrices into \textbf{learngenes} and \textbf{tailors} to condense common and class-specific knowledge, respectively, through a class gate. In this way, KIND redefines traditional pre-training methods by adjusting training objectives from maximizing model performance on current tasks to condensing transferable common knowledge, leveraging the \textit{Learngene} framework. We conduct experiments on ImageNet-1K and compare KIND with PEFT and other learngene methods. Results indicate that KIND achieves state-of-the-art performance compared to other PEFT and learngene methods. Specifically, the images generated by KIND achieves more than 6.54 and 1.07 decrease in FID and sFID on DiT-L/2, utilizing only 45.4M trainable parameters and saving at least 35.4G FLOPs in computational cost.
- Abstract(参考訳): モデルパラメータの拡張により、事前学習されたモデルが好まれるバックボーンとなり、パラメータ効率の良いファインチューニング(PEFT)のようなテクニックが典型的にはこれらのモデルのパラメータを固定している。
しかしながら、トレーニング済みのモデルは常に最適であるとは限らない。特に、トレーニングタスクとターゲットタスクの間に不一致がある場合、負の転送が発生する可能性がある。
これを解決するために、拡散モデルにおける \textbf{K}nowledge \textbf{IN}tegration と \textbf{D}iversion を実行する \textbf{KIND} を導入する。
KINDはまず、$U$、$\Sigma$、$V$行列を用いてモデルのパラメータ行列を分解することで知識を統合する。
次に、これらの行列のコンポーネントを、クラスゲートを通じて共通知識とクラス固有の知識を凝縮するために、明示的に \textbf{learngenes} と \textbf{tailors} に分割する。
このように、KINDは、現在のタスクにおけるモデルパフォーマンスの最大化から、転送可能な共通知識の凝縮まで、トレーニング目標を調整することで、従来の事前トレーニングメソッドを再定義し、 \textit{Learngene}フレームワークを活用する。
我々は ImageNet-1K 上で実験を行い、KIND とPEFT や他の学習方法との比較を行った。
その結果,KINDは,他のPEFT法や学習遺伝子法と比較して最先端の性能を達成できることが示唆された。
具体的には、KIND が生成した画像は DiT-L/2 上の FID と sFID の6.54 以上と 1.07 以上減少し、45.4M のトレーニング可能なパラメータしか利用せず、計算コストで少なくとも 35.4G FLOP を節約している。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデルアタック(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Diffusion Model Patching via Mixture-of-Prompts [17.04227271007777]
拡散モデルパッチング(DMP)は,事前学習した拡散モデルの性能を高めるための単純な手法である。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
論文 参考訳(メタデータ) (2024-05-28T04:47:54Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。