Fugu-MT 論文翻訳(概要): Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers

論文の概要: Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers

arxiv url: http://arxiv.org/abs/2404.09976v1
Date: Mon, 15 Apr 2024 17:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 21:18:06.022915
Title: Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers
Title（参考訳）: Diffscaler: 拡散変換器の生成技術を強化する
Authors: Nithin Gopalakrishnan Nair, Jeya Maria Jose Valanarasu, Vishal M. Patel,
Abstract要約: 本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。 DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
参考スコア（独自算出の注目度）: 34.611309081801345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, diffusion transformers have gained wide attention with its excellent performance in text-to-image and text-to-vidoe models, emphasizing the need for transformers as backbone for diffusion models. Transformer-based models have shown better generalization capability compared to CNN-based models for general vision tasks. However, much less has been explored in the existing literature regarding the capabilities of transformer-based diffusion backbones and expanding their generative prowess to other datasets. This paper focuses on enabling a single pre-trained diffusion transformer model to scale across multiple datasets swiftly, allowing for the completion of diverse generative tasks using just one model. To this end, we propose DiffScaler, an efficient scaling strategy for diffusion models where we train a minimal amount of parameters to adapt to different tasks. In particular, we learn task-specific transformations at each layer by incorporating the ability to utilize the learned subspaces of the pre-trained model, as well as the ability to learn additional task-specific subspaces, which may be absent in the pre-training dataset. As these parameters are independent, a single diffusion model with these task-specific parameters can be used to perform multiple tasks simultaneously. Moreover, we find that transformer-based diffusion models significantly outperform CNN-based diffusion models methods while performing fine-tuning over smaller datasets. We perform experiments on four unconditional image generation datasets. We show that using our proposed method, a single pre-trained model can scale up to perform these conditional and unconditional tasks, respectively, with minimal parameter tuning while performing as close as fine-tuning an entire diffusion model for that particular task.
Abstract（参考訳）: 近年、拡散変換器はテキスト・ツー・イメージモデルやテキスト・ツー・ビジョエモデルにおいて優れた性能を示し、拡散モデルのバックボーンとしてのトランスフォーマーの必要性を強調している。トランスフォーマーベースのモデルは、一般的な視覚タスクのためのCNNベースのモデルと比較して、より優れた一般化能力を示している。しかしながら、トランスフォーマーベースの拡散バックボーンの能力や、その生成能力を他のデータセットに拡張する能力について、既存の文献では、はるかに少ない研究がなされている。本稿では,複数のデータセットにまたがる1つの事前学習拡散トランスフォーマーモデルの実現に焦点をあてる。そこで本研究では,分散モデルの効率的なスケーリング戦略であるDiffScalerを提案する。特に、事前学習されたモデルの学習サブスペースを利用する能力と、事前学習データセットにないかもしれない追加のタスク固有のサブスペースを学習する能力を組み合わせることで、各レイヤでのタスク固有の変換を学習する。これらのパラメータは独立しているため、複数のタスクを同時に実行するために、これらのタスク固有のパラメータを持つ単一の拡散モデルを使用することができる。さらに、変換器に基づく拡散モデルは、より小さなデータセットに対して微調整を行いながら、CNNベースの拡散モデルよりも大幅に優れていることがわかった。 4つの無条件画像生成データセットについて実験を行った。提案手法を用いることで,条件付きタスクと非条件付きタスクをそれぞれスケールアップし,パラメータチューニングを最小限に抑えながら,特定のタスクに対する拡散モデル全体を微調整できることを示す。

関連論文リスト

Efficient Flow Matching using Latent Variables [3.5817637191799605]
我々は、マルチモーダルデータ構造を組み込むための簡易なトレーニング/推論戦略を提供する、$textttLatent-CFM$を提示する。 textttLatent-CFM$は、トレーニングを著しく減らして、生成品質が向上していることを示す。
論文参考訳（メタデータ） (2025-05-07T14:59:23Z)
Merging Feed-Forward Sublayers for Compressed Transformers [16.746335565636976]
モデル内の類似パラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。具体的には、Transformerモデルでフィードフォワードサブレイヤを分離し、アライメントし、マージする。モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら、元のモデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2025-01-10T17:25:11Z)
Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文参考訳（メタデータ） (2024-05-23T17:57:24Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。 Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。 GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文参考訳（メタデータ） (2023-05-29T04:22:57Z)
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale [36.590918776922905]
本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
論文参考訳（メタデータ） (2023-03-12T03:38:39Z)
HyperTransformer: Model Generation for Supervised and Semi-Supervised Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文参考訳（メタデータ） (2022-01-11T20:15:35Z)
Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。 PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文参考訳（メタデータ） (2020-07-07T03:36:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。