論文の概要: Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models
- arxiv url: http://arxiv.org/abs/2408.03433v1
- Date: Tue, 6 Aug 2024 20:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:26:26.328482
- Title: Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models
- Title(参考訳): ハイブリッド拡散モデル:ラベル効率の良いセグメンテーションモデルの教師付きおよび生成前訓練の組み合わせ
- Authors: Bruno Sauvalle, Mathieu Salzmann,
- Abstract要約: そこで本研究では,第1領域における画像のデノベーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを提案する。
提案手法を用いて事前学習したモデルを微調整すると、教師なしまたは教師なしの事前学習を用いて訓練した類似モデルの微調整よりも優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are considering in this paper the task of label-efficient fine-tuning of segmentation models: We assume that a large labeled dataset is available and allows to train an accurate segmentation model in one domain, and that we have to adapt this model on a related domain where only a few samples are available. We observe that this adaptation can be done using two distinct methods: The first method, supervised pretraining, is simply to take the model trained on the first domain using classical supervised learning, and fine-tune it on the second domain with the available labeled samples. The second method is to perform self-supervised pretraining on the first domain using a generic pretext task in order to get high-quality representations which can then be used to train a model on the second domain in a label-efficient way. We propose in this paper to fuse these two approaches by introducing a new pretext task, which is to perform simultaneously image denoising and mask prediction on the first domain. We motivate this choice by showing that in the same way that an image denoiser conditioned on the noise level can be considered as a generative model for the unlabeled image distribution using the theory of diffusion models, a model trained using this new pretext task can be considered as a generative model for the joint distribution of images and segmentation masks under the assumption that the mapping from images to segmentation masks is deterministic. We then empirically show on several datasets that fine-tuning a model pretrained using this approach leads to better results than fine-tuning a similar model trained using either supervised or unsupervised pretraining only.
- Abstract(参考訳): 大規模なラベル付きデータセットが利用可能であり、1つのドメインで正確なセグメンテーションモデルをトレーニングできると仮定し、このモデルをいくつかのサンプルしか利用できない関連するドメインに適応させる必要があると仮定する。
教師付き事前学習法は、古典的な教師付き学習を用いて第1のドメインで訓練されたモデルを、利用可能なラベル付きサンプルを用いて第2のドメインで微調整することである。
第2の方法は、ジェネリックプレテキストタスクを使用して第1のドメイン上で自己教師付き事前訓練を行うことで、高品質な表現を得ることで、ラベル効率のよい方法で第2のドメイン上でモデルをトレーニングすることができる。
本稿では,この2つのアプローチを,第1領域における画像デノゲーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを導入することで融合する。
この選択の動機は、拡散モデル理論を用いて、ノイズレベルに条件付き画像デノイザを未ラベル画像分布の生成モデルとみなすことができるのと同様に、画像からセグメンテーションマスクへのマッピングが決定論的であると仮定して、画像とセグメンテーションマスクの結合分布の生成モデルとみなすことができる。
次に、本手法を用いて事前トレーニングされたモデルを微調整するいくつかのデータセットを実証的に示し、教師なしまたは教師なしの事前トレーニングのみを使用してトレーニングされた同様のモデルを微調整するよりも、よりよい結果をもたらす。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Comparison of self-supervised in-domain and supervised out-domain transfer learning for bird species recognition [0.19183348587701113]
別のタスクを支援するために事前訓練されたモデルの重みを移すことは、現代のディープラーニングの重要な部分となっている。
本実験は,鳥種認識のためのドメイン内モデルとデータセットの有用性を実証するものである。
論文 参考訳(メタデータ) (2024-04-26T08:47:28Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer [13.956618446530559]
本稿では,ZoDiと呼ばれる拡散モデルに基づくゼロショット領域適応手法を提案する。
まず,原画像の領域を対象領域に転送することで,対象画像の合成にオフ・ザ・シェルフ拡散モデルを用いる。
次に、元の表現でソース画像と合成画像の両方を用いてモデルを訓練し、ドメイン・ロバスト表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T14:58:09Z) - Generating Reliable Pixel-Level Labels for Source Free Domain Adaptation [13.913151437401472]
ReGENは、画像間翻訳ネットワークとセグメンテーションネットワークとを備える。
我々のワークフローは、元のターゲット領域画像からノイズ予測を用いてターゲットライクな画像を生成する。
論文 参考訳(メタデータ) (2023-07-03T09:44:13Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。