論文の概要: DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control
- arxiv url: http://arxiv.org/abs/2312.03048v3
- Date: Wed, 31 Jul 2024 13:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 20:35:03.594545
- Title: DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control
- Title(参考訳): DGInStyle:画像拡散モデルとスティル化セマンティック制御によるドメイン一般化可能なセマンティックセマンティックセグメンテーション
- Authors: Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov,
- Abstract要約: 大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
- 参考スコア(独自算出の注目度): 68.14798033899955
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large, pretrained latent diffusion models (LDMs) have demonstrated an extraordinary ability to generate creative content, specialize to user data through few-shot fine-tuning, and condition their output on other modalities, such as semantic maps. However, are they usable as large-scale data generators, e.g., to improve tasks in the perception stack, like semantic segmentation? We investigate this question in the context of autonomous driving, and answer it with a resounding "yes". We propose an efficient data generation pipeline termed DGInStyle. First, we examine the problem of specializing a pretrained LDM to semantically-controlled generation within a narrow domain. Second, we propose a Style Swap technique to endow the rich generative prior with the learned semantic control. Third, we design a Multi-resolution Latent Fusion technique to overcome the bias of LDMs towards dominant objects. Using DGInStyle, we generate a diverse dataset of street scenes, train a domain-agnostic semantic segmentation model on it, and evaluate the model on multiple popular autonomous driving datasets. Our approach consistently increases the performance of several domain generalization methods compared to the previous state-of-the-art methods. The source code and the generated dataset are available at https://dginstyle.github.io.
- Abstract(参考訳): 大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的なコンテンツを生成し、数ショットの微調整によってユーザーデータに特化し、セマンティックマップのような他のモダリティに出力を条件付けるという異常な能力を示した。
しかし、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できるだろうか?
自律運転の文脈でこの疑問を調査し,それを「はい」という言い換えで答える。
DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。
まず,学習済みの LDM を,狭い領域内で意味的に制御された生成に限定する問題について検討する。
第2に、学習した意味制御に先立って、リッチな生成を支援するスタイルスワップ手法を提案する。
第3に, LDMの主対象への偏りを克服する多分解能ラテント融合法を設計する。
DGInStyleを用いて、街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、複数の人気のある自動運転データセット上でモデルを評価する。
提案手法は,従来の最先端手法と比較して,いくつかの領域一般化手法の性能を一貫して向上させる。
ソースコードと生成されたデータセットはhttps://dginstyle.github.io.comで入手できる。
関連論文リスト
- DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation [43.842694540544194]
本稿では、ドメインの一般化とテスト時間適応を組み合わせることで、未確認対象領域で事前学習したモデルを再利用するための非常に効果的なアプローチを提案する。
本手法は,事前訓練した全身CTモデルと組み合わせることで,MR画像を高精度に分割できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T10:26:21Z) - Generalization by Adaptation: Diffusion-Based Domain Extension for
Domain-Generalized Semantic Segmentation [21.016364582994846]
拡散型ドメイン拡張法(DIDEX)を提案する。
拡散モデルを用いて、多様なテキストプロンプトを持つ擬似ターゲットドメインを生成する。
2番目のステップでは、この擬標的領域に適応して一般化モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-04T12:31:45Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Semantic-Fused Multi-Granularity Cross-City Traffic Prediction [17.020546413647708]
本研究では,異なる粒度で融合した意味を持つ都市間における知識伝達を実現するためのセマンティック・フューズド・マルチグラニュラリティ・トランスファー・ラーニング・モデルを提案する。
本稿では,静的な空間依存を保ちながら,様々な意味を融合する意味融合モジュールを設計する。
STLモデルの有効性を検証するため、6つの実世界のデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-23T04:26:34Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Unsupervised Intra-domain Adaptation for Semantic Segmentation through
Self-Supervision [73.76277367528657]
畳み込みニューラルネットワークに基づくアプローチは、セマンティックセグメンテーションにおいて顕著な進歩を遂げた。
この制限に対処するために、グラフィックエンジンから生成された注釈付きデータを使用してセグメンテーションモデルをトレーニングする。
ドメイン間およびドメイン間ギャップを最小化する2段階の自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T15:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。