論文の概要: Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2307.02138v1
- Date: Wed, 5 Jul 2023 09:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:23:45.095392
- Title: Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation
- Title(参考訳): クロスドメインセマンティックセマンティックセグメンテーションのためのプロンプト拡散表現
- Authors: Rui Gong, Martin Danelljan, Han Sun, Julio Delgado Mangas, Luc Van
Gool
- Abstract要約: 拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
- 参考スコア(独自算出の注目度): 101.04326113360342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While originally designed for image generation, diffusion models have
recently shown to provide excellent pretrained feature representations for
semantic segmentation. Intrigued by this result, we set out to explore how well
diffusion-pretrained representations generalize to new domains, a crucial
ability for any representation. We find that diffusion-pretraining achieves
extraordinary domain generalization results for semantic segmentation,
outperforming both supervised and self-supervised backbone networks. Motivated
by this, we investigate how to utilize the model's unique ability of taking an
input prompt, in order to further enhance its cross-domain performance. We
introduce a scene prompt and a prompt randomization strategy to help further
disentangle the domain-invariant information when training the segmentation
head. Moreover, we propose a simple but highly effective approach for test-time
domain adaptation, based on learning a scene prompt on the target domain in an
unsupervised manner. Extensive experiments conducted on four synthetic-to-real
and clear-to-adverse weather benchmarks demonstrate the effectiveness of our
approaches. Without resorting to any complex techniques, such as image
translation, augmentation, or rare-class sampling, we set a new
state-of-the-art on all benchmarks. Our implementation will be publicly
available at \url{https://github.com/ETHRuiGong/PTDiffSeg}.
- Abstract(参考訳): もともと画像生成のために設計されたが、拡散モデルは近年、セマンティックセグメンテーションのための優れた事前訓練された特徴表現を提供することを示した。
この結果から、拡散事前表現がいかにして新しい領域に一般化するかを考察し、あらゆる表現にとって重要な能力となる。
拡散予測はセマンティックセグメンテーションの領域一般化に優れており,教師付きバックボーンネットワークや自己教師付きバックボーンネットワークよりも優れている。
そこで本研究では,ドメイン間性能をさらに向上するために,入力プロンプトを取り込むモデルのユニークな能力を活用する方法について検討する。
セグメンテーションヘッドをトレーニングする際に、シーンプロンプトとプロンプトランダム化戦略を導入し、ドメイン不変な情報をさらに分離する。
さらに,対象ドメイン上のシーンプロンプトを教師なしで学習する上で,テスト時間領域適応のための簡易かつ高効率なアプローチを提案する。
4種類の合成・実・クリア・トゥ・アドバース・ウェザー・ベンチマーク実験を行い,本手法の有効性を実証した。
画像翻訳や拡張,レアクラスのサンプリングといった複雑なテクニックを使わずに,すべてのベンチマークに最新技術を設定しました。
我々の実装は \url{https://github.com/ETHRuiGong/PTDiffSeg} で公開されます。
関連論文リスト
- Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - StylePrompter: Enhancing Domain Generalization with Test-Time Style Priors [39.695604434738186]
実世界のアプリケーションでは、推論段階でのサンプル分布は、トレーニング段階でのものとしばしば異なる。
本稿では,訓練されたモデルを動的に適応させるために,言語モダリティのスタイルプロンプトを紹介する。
特に,現在の画像のスタイル情報をトークン埋め込み空間に埋め込むように,スタイルプロンサを訓練する。
スタイルトークン埋め込み空間と手作りスタイル正規化のオープンスペース分割により、トレーニング済みのスタイルプロンサが未知のドメインからのデータを効率的に処理できるようになる。
論文 参考訳(メタデータ) (2024-08-17T08:35:43Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。
適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。
様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-19T17:46:02Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Towards Adaptive Semantic Segmentation by Progressive Feature Refinement [16.40758125170239]
セグメンテーションネットワークの転送可能性を高めるために,ドメイン逆学習とともに,革新的なプログレッシブな特徴改善フレームワークを提案する。
その結果、ソース・ドメイン・イメージで訓練されたセグメンテーション・モデルは、大幅な性能劣化を伴わずにターゲット・ドメインに転送できる。
論文 参考訳(メタデータ) (2020-09-30T04:17:48Z) - Generalizable Model-agnostic Semantic Segmentation via Target-specific
Normalization [24.14272032117714]
一般化可能なセマンティックセグメンテーションタスクのための新しいドメイン一般化フレームワークを提案する。
モデルに依存しない学習を利用してドメインシフト問題をシミュレートする。
観測対象領域と観測対象領域間のデータ分散の相違を考慮し、目標固有正規化方式を開発する。
論文 参考訳(メタデータ) (2020-03-27T09:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。