論文の概要: Diffusion Models Trained with Large Data Are Transferable Visual Models
- arxiv url: http://arxiv.org/abs/2403.06090v1
- Date: Sun, 10 Mar 2024 04:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 08:54:14.098805
- Title: Diffusion Models Trained with Large Data Are Transferable Visual Models
- Title(参考訳): 大容量データを用いた拡散モデルは伝達可能な視覚モデルである
- Authors: Guangkai Xu, Yongtao Ge, Mingyu Liu, Chengxiang Fan, Kangyang Xie,
Zhiyue Zhao, Hao Chen, Chunhua Shen
- Abstract要約: そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
- 参考スコア(独自算出の注目度): 51.9937114613558
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We show that, simply initializing image understanding models using a
pre-trained UNet (or transformer) of diffusion models, it is possible to
achieve remarkable transferable performance on fundamental vision perception
tasks using a moderate amount of target data (even synthetic data only),
including monocular depth, surface normal, image segmentation, matting, human
pose estimation, among virtually many others. Previous works have adapted
diffusion models for various perception tasks, often reformulating these tasks
as generation processes to align with the diffusion process. In sharp contrast,
we demonstrate that fine-tuning these models with minimal adjustments can be a
more effective alternative, offering the advantages of being embarrassingly
simple and significantly faster. As the backbone network of Stable Diffusion
models is trained on giant datasets comprising billions of images, we observe
very robust generalization capabilities of the diffusion backbone. Experimental
results showcase the remarkable transferability of the backbone of diffusion
models across diverse tasks and real-world datasets.
- Abstract(参考訳): 拡散モデルの事前訓練されたUNet(または変換器)を用いて画像理解モデルの初期化を行うことで、モノクロ深度、表面正規化、画像分割、マッチング、人間のポーズ推定などを含む適度な量の目標データ(合成データのみ)を用いて、基本的な視覚知覚タスクにおいて顕著な伝達性能を達成することができることを示す。
従来の研究は、様々な知覚タスクに拡散モデルを適用しており、拡散プロセスに合わせてこれらのタスクを生成プロセスとして再構成することが多い。
対照的に,これらのモデルを最小限の調整で微調整することは,より効果的な代替手段になり得ることを実証する。
安定拡散モデルのバックボーンネットワークは、数十億の画像からなる巨大なデータセットに基づいて訓練されるため、拡散バックボーンの非常に堅牢な一般化能力が観察される。
実験結果は,多様なタスクと実世界のデータセットにわたる拡散モデルのバックボーンの顕著な転送可能性を示す。
関連論文リスト
- MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided
Learning Process [28.251181984023205]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Taming Latent Diffusion Models to See in the Dark [65.6004750218506]
LDM-SIDは,提案するテーピングモジュールの集合を凍結した事前学習拡散モデルに挿入し,生成過程を制御することを目的としている。
入力されたRAW画像に2次元離散ウェーブレット変換を適用し、LLIEタスクを低周波コンテンツ生成と高周波ディテールメンテナンスという2つの重要な部分に分割する。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Expanding Expressiveness of Diffusion Models with Limited Data via
Self-Distillation based Fine-Tuning [24.791783885165923]
限られたデータセット上での拡散モデルの訓練は、限られた生成能力と表現性の観点から問題を引き起こす。
これらの課題に対処するために、SDFT(Self-Distillation for Fine-Tuning diffusion model)を提案する。
論文 参考訳(メタデータ) (2023-11-02T06:24:06Z) - Image retrieval outperforms diffusion models on data augmentation [36.559967424331695]
拡散モデルは、分類などの下流タスクのためのトレーニングデータセットを強化するために提案されている。
強化のために事前学習プロセスの追加データを直接利用して、改善を十分に一般化するかどうかは不明だ。
ターゲットデータに対する拡散モデルのパーソナライズは、より単純なプロンプト戦略より優れている。
しかし,拡散モデルの事前学習データのみを用いることで,より強力な下流性能が得られる。
論文 参考訳(メタデータ) (2023-04-20T12:21:30Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。