論文の概要: Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
- arxiv url: http://arxiv.org/abs/2505.09358v1
- Date: Wed, 14 May 2025 13:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.463309
- Title: Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis
- Title(参考訳): Marigold: 画像解析のための拡散ベースイメージジェネレータの適応性
- Authors: Bingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler,
- Abstract要約: 本稿では、条件付き生成モデルのファミリーであり、事前学習された潜伏拡散モデルから知識を抽出する微調整プロトコルであるMarigoldを紹介する。
Marigoldは、トレーニング済みの潜在拡散モデルのアーキテクチャを最小限に修正し、わずか数日で1つのGPU上で小さな合成データセットをトレーニングし、最先端のゼロショット一般化を実証する。
- 参考スコア(独自算出の注目度): 28.198808978074126
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The success of deep learning in computer vision over the past decade has hinged on large labeled datasets and strong pretrained models. In data-scarce settings, the quality of these pretrained models becomes crucial for effective transfer learning. Image classification and self-supervised learning have traditionally been the primary methods for pretraining CNNs and transformer-based architectures. Recently, the rise of text-to-image generative models, particularly those using denoising diffusion in a latent space, has introduced a new class of foundational models trained on massive, captioned image datasets. These models' ability to generate realistic images of unseen content suggests they possess a deep understanding of the visual world. In this work, we present Marigold, a family of conditional generative models and a fine-tuning protocol that extracts the knowledge from pretrained latent diffusion models like Stable Diffusion and adapts them for dense image analysis tasks, including monocular depth estimation, surface normals prediction, and intrinsic decomposition. Marigold requires minimal modification of the pre-trained latent diffusion model's architecture, trains with small synthetic datasets on a single GPU over a few days, and demonstrates state-of-the-art zero-shot generalization. Project page: https://marigoldcomputervision.github.io
- Abstract(参考訳): 過去10年間のコンピュータビジョンにおけるディープラーニングの成功は、大きなラベル付きデータセットと強力な事前学習モデルに依存している。
データスカース設定では、これらの事前訓練されたモデルの品質が効果的な伝達学習に不可欠となる。
画像分類と自己教師型学習は、伝統的にCNNとトランスフォーマーベースのアーキテクチャを事前訓練する主要な方法である。
近年,テキスト・ツー・イメージ生成モデルの台頭,特に遅延空間におけるデノナイズ拡散を用いたモデルが,大量のキャプション付き画像データセットに基づいて訓練された新たな基礎モデルを導入している。
これらのモデルが目に見えないコンテンツのリアルなイメージを生成する能力は、視覚世界に対する深い理解を持っていることを示唆している。
本研究では, 定常拡散のような事前学習された潜伏拡散モデルから知識を抽出し, 単眼深度推定, 表面正規化予測, 内在分解などの画像解析タスクに適応する条件生成モデルと微調整プロトコルであるMarigoldを提案する。
Marigoldは、トレーニング済みの潜在拡散モデルのアーキテクチャを最小限に修正し、わずか数日で1つのGPU上で小さな合成データセットをトレーニングし、最先端のゼロショット一般化を実証する。
プロジェクトページ:https://marigold computervision.github.io
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling [33.95780732124864]
Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
我々は,MIMに基づくH-GKD (Heterogeneous Generative Knowledge Distillation) を開発した。
本手法は,異種教師モデルからデータの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
論文 参考訳(メタデータ) (2023-09-18T08:30:55Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。