論文の概要: KIND: Knowledge Integration and Diversion for Training Decomposable Models
- arxiv url: http://arxiv.org/abs/2408.07337v2
- Date: Tue, 20 May 2025 17:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.24735
- Title: KIND: Knowledge Integration and Diversion for Training Decomposable Models
- Title(参考訳): KIND: 難解モデルのための知識統合とディバージョン
- Authors: Yucheng Xie, Fu Feng, Ruixiao Shi, Jing Wang, Yong Rui, Xin Geng,
- Abstract要約: 本稿では,分解可能なモデルを構築するための事前学習手法であるKINDを提案する。
KINDは、クラスに依存しない知識をカプセル化するための学習遺伝子と、クラス固有の知識をキャプチャするためのテーラーを統合している。
実験により、KINDで事前訓練されたモデルは、学習遺伝子とテーラーに分解でき、多様なリソース制約されたデプロイメントに適応的に再結合できることが示された。
- 参考スコア(独自算出の注目度): 38.166949036830886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models have become the preferred backbone due to the increasing complexity of model parameters. However, traditional pre-trained models often face deployment challenges due to their fixed sizes, and are prone to negative transfer when discrepancies arise between training tasks and target tasks. To address this, we propose KIND, a novel pre-training method designed to construct decomposable models. KIND integrates knowledge by incorporating Singular Value Decomposition (SVD) as a structural constraint, with each basic component represented as a combination of a column vector, singular value, and row vector from U, \Sigma, and V^\top matrices. These components are categorized into learngenes for encapsulating class-agnostic knowledge and tailors for capturing class-specific knowledge, with knowledge diversion facilitated by a class gate mechanism during training. Extensive experiments demonstrate that models pre-trained with KIND can be decomposed into learngenes and tailors, which can be adaptively recombined for diverse resource-constrained deployments. Moreover, for tasks with large domain shifts, transferring only learngenes with task-agnostic knowledge, when combined with randomly initialized tailors, effectively mitigates domain shifts. Code will be made available at https://github.com/Te4P0t/KIND.
- Abstract(参考訳): 事前学習されたモデルは、モデルパラメータの複雑さが増大するため、好まれるバックボーンとなっている。
しかしながら、従来の事前トレーニングモデルでは、サイズが固定されているため、配置上の問題に直面することが多く、トレーニングタスクとターゲットタスクの相違が生じると、負の転送が発生する傾向がある。
そこで本研究では,分解可能なモデルを構築するための新しい事前学習手法であるKINDを提案する。
KINDは、Singular Value Decomposition (SVD) を構造的制約として組み入れ、U, \Sigma, V^\top行列の列ベクトル、特異値、行ベクトルの組み合わせとして表現する。
これらのコンポーネントは、クラスに依存しない知識をカプセル化するための学習遺伝子と、クラス固有の知識をキャプチャするためのテーラーに分類される。
大規模な実験は、KINDで事前訓練されたモデルを学習遺伝子と仕立て子に分解できることを示し、多様な資源制約された展開に適応的に組み換えることができる。
さらに、大きなドメインシフトを持つタスクに対しては、タスクに依存しない知識で学習遺伝子のみを転送し、ランダムに初期化されたテーラーと組み合わせることで、ドメインシフトを効果的に軽減する。
コードはhttps://github.com/Te4P0t/KINDで公開される。
関連論文リスト
- Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [20.712053538676116]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
TREADは計算コストを削減し、同時にモデル性能を向上することを示す。
ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文 参考訳(メタデータ) (2025-01-08T18:38:25Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Diffusion Model Patching via Mixture-of-Prompts [17.04227271007777]
拡散モデルパッチング(DMP)は,事前学習した拡散モデルの性能を高めるための単純な手法である。
DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。
論文 参考訳(メタデータ) (2024-05-28T04:47:54Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。