論文の概要: Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC
- arxiv url: http://arxiv.org/abs/2412.05619v1
- Date: Sat, 07 Dec 2024 11:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:18.561777
- Title: Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC
- Title(参考訳): 異なるタスクのための特定の拡散モデルの設計が必要か? ONE-PICを試して
- Authors: Ming Tao, Bing-Kun Bao, Yaowei Wang, Changsheng Xu,
- Abstract要約: 本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
- 参考スコア(独自算出の注目度): 77.8851460746251
- License:
- Abstract: Large pretrained diffusion models have demonstrated impressive generation capabilities and have been adapted to various downstream tasks. However, unlike Large Language Models (LLMs) that can learn multiple tasks in a single model based on instructed data, diffusion models always require additional branches, task-specific training strategies, and losses for effective adaptation to different downstream tasks. This task-specific fine-tuning approach brings two drawbacks. 1) The task-specific additional networks create gaps between pretraining and fine-tuning which hinders the transfer of pretrained knowledge. 2) It necessitates careful additional network design, raising the barrier to learning and implementation, and making it less user-friendly. Thus, a question arises: Can we achieve a simple, efficient, and general approach to fine-tune diffusion models? To this end, we propose ONE-PIC. It enhances the inherited generative ability in the pretrained diffusion models without introducing additional modules. Specifically, we propose In-Visual-Context Tuning, which constructs task-specific training data by arranging source images and target images into a single image. This approach makes downstream fine-tuning closer to the pertaining, allowing our model to adapt more quickly to various downstream tasks. Moreover, we propose a Masking Strategy to unify different generative tasks. This strategy transforms various downstream fine-tuning tasks into predictions of the masked portions. The extensive experimental results demonstrate that our method is simple and efficient which streamlines the adaptation process and achieves excellent performance with lower costs. Code is available at https://github.com/tobran/ONE-PIC.
- Abstract(参考訳): 大規模な事前学習拡散モデルでは、印象的な生成能力を示し、下流の様々なタスクに適応している。
しかし、指示されたデータに基づいて1つのモデルで複数のタスクを学習できる大規模言語モデル(LLM)とは異なり、拡散モデルは常に追加のブランチ、タスク固有のトレーニング戦略、異なる下流タスクへの効果的な適応のための損失を必要とする。
このタスク固有の微調整アプローチには2つの欠点がある。
1)タスク固有の追加ネットワークは,事前学習と微調整の間にギャップを生じさせ,事前訓練された知識の伝達を妨げる。
2) ネットワーク設計を慎重にし,学習と実装の障壁を高くし,ユーザフレンドリさを損なう必要がある。
より単純で効率的で汎用的な細管拡散モデルへのアプローチが達成できるだろうか?
そこで我々はONE-PICを提案する。
これは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を高める。
具体的には、ソースイメージとターゲットイメージを1つのイメージにアレンジすることで、タスク固有のトレーニングデータを構築するインビジュアルコンテキストチューニングを提案する。
このアプローチにより、下流の微調整が関連するものに近づき、我々のモデルは様々な下流のタスクにより迅速に適応できる。
さらに,異なる生成タスクを統合化するためのマスキング戦略を提案する。
この戦略は、様々な下流の微調整タスクをマスク部分の予測に変換する。
大規模な実験結果から,本手法は適応処理の合理化を図り,低コストで優れた性能を実現するためのシンプルかつ効率的な手法であることが示唆された。
コードはhttps://github.com/tobran/ONE-PICで入手できる。
関連論文リスト
- Instruct-IPT: All-in-One Image Processing Transformer via Weight Modulation [25.253522756863727]
Instruct-IPT - 多様体画像復元タスクを効果的に処理できるオールインワン画像処理変換器を提案する。
おもちゃの実験を通してタスクに敏感な重みを見つけ,その上にタスク固有のバイアスを導入する。
優れた圧縮戦略のランク解析を行い、バイアスに対して低ランク分解を行う。
論文 参考訳(メタデータ) (2024-06-30T12:13:34Z) - Customize Your Own Paired Data via Few-shot Way [14.193031218059646]
いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。
他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。
提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。
論文 参考訳(メタデータ) (2024-05-21T04:21:35Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。