Fugu-MT 論文翻訳(概要): DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control

論文の概要: DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control

arxiv url: http://arxiv.org/abs/2312.03048v1
Date: Tue, 5 Dec 2023 18:34:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 17:19:20.581385
Title: DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control
Title（参考訳）: DGInStyle:画像拡散モデルとスティル化セマンティック制御によるドメイン一般化可能なセマンティックセマンティックセグメンテーション
Authors: Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov
Abstract要約: DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、人気のある自動運転データセット上でモデルを評価する。
参考スコア（独自算出の注目度）: 71.5653099236357
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large, pretrained latent diffusion models (LDMs) have demonstrated an extraordinary ability to generate creative content, specialize to user data through few-shot fine-tuning, and condition their output on other modalities, such as semantic maps. However, are they usable as large-scale data generators, e.g., to improve tasks in the perception stack, like semantic segmentation? We investigate this question in the context of autonomous driving, and answer it with a resounding "yes". We propose an efficient data generation pipeline termed DGInStyle. First, we examine the problem of specializing a pretrained LDM to semantically-controlled generation within a narrow domain. Second, we design a Multi-resolution Latent Fusion technique to overcome the bias of LDMs towards dominant objects. Third, we propose a Style Swap technique to endow the rich generative prior with the learned semantic control. Using DGInStyle, we generate a diverse dataset of street scenes, train a domain-agnostic semantic segmentation model on it, and evaluate the model on multiple popular autonomous driving datasets. Our approach consistently increases the performance of several domain generalization methods, in some cases by +2.5 mIoU compared to the previous state-of-the-art method without our generative augmentation scheme. Source code and dataset are available at https://dginstyle.github.io .
Abstract（参考訳）: 大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的なコンテンツを生成し、数ショットの微調整によってユーザーデータに特化し、セマンティックマップのような他のモダリティに出力を条件付けるという異常な能力を示した。しかし、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できるだろうか? 我々は、この問題を自動運転の文脈で調査し、それを「はい」という音で答える。 DGInStyleと呼ばれる効率的なデータ生成パイプラインを提案する。まず,学習済みの LDM を,狭い領域内で意味的に制御された生成に限定する問題について検討する。第2に, LDMの主対象への偏りを克服する多分解能ラテント融合法を設計する。第3に,学習した意味制御に先行して豊かな生成物を付与するスタイルスワップ手法を提案する。 DGInStyleを用いて、街路シーンの多様なデータセットを生成し、ドメインに依存しないセマンティックセマンティックセマンティクスモデルをトレーニングし、複数の人気のある自動運転データセット上でモデルを評価する。提案手法はいくつかの領域一般化法の性能を連続的に向上させるが, 生成的拡張法を使わずに, 従来の最先端手法と比較して+2.5 mIoUで向上する。ソースコードとデータセットはhttps://dginstyle.github.ioで入手できる。

関連論文リスト

LangDAug: Langevin Data Augmentation for Multi-Source Domain Generalization in Medical Image Segmentation [5.9862846364925115]
ドメイン一般化(DG)手法は、表現学習またはデータ拡張(DAug)を通じてこれを克服する。 2次元医用画像セグメンテーションにおけるマルチソース領域一般化のための新しい$textbf$evin $textbfD$ata $textbfAug$mentationであるLangDAugを提案する。我々は、LangDAugが最先端のドメイン一般化手法より優れており、既存のドメインランダム化アプローチを効果的に補完していることを示す。
論文参考訳（メタデータ） (2025-05-26T08:18:32Z)
DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation [43.842694540544194]
本稿では、ドメインの一般化とテスト時間適応を組み合わせることで、未確認対象領域で事前学習したモデルを再利用するための非常に効果的なアプローチを提案する。本手法は,事前訓練した全身CTモデルと組み合わせることで,MR画像を高精度に分割できることを実証する。
論文参考訳（メタデータ） (2023-12-11T10:26:21Z)
Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic Segmentation [21.016364582994846]
拡散型ドメイン拡張法(DIDEX)を提案する。拡散モデルを用いて、多様なテキストプロンプトを持つ擬似ターゲットドメインを生成する。 2番目のステップでは、この擬標的領域に適応して一般化モデルを訓練する。
論文参考訳（メタデータ） (2023-12-04T12:31:45Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
Semantic-Fused Multi-Granularity Cross-City Traffic Prediction [17.020546413647708]
本研究では,異なる粒度で融合した意味を持つ都市間における知識伝達を実現するためのセマンティック・フューズド・マルチグラニュラリティ・トランスファー・ラーニング・モデルを提案する。本稿では,静的な空間依存を保ちながら,様々な意味を融合する意味融合モジュールを設計する。 STLモデルの有効性を検証するため、6つの実世界のデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2023-02-23T04:26:34Z)
Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文参考訳（メタデータ） (2022-07-21T03:43:38Z)
Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-07-07T07:41:32Z)
Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文参考訳（メタデータ） (2021-06-10T17:59:13Z)
Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。 MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文参考訳（メタデータ） (2021-06-08T00:30:43Z)
Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision [73.76277367528657]
畳み込みニューラルネットワークに基づくアプローチは、セマンティックセグメンテーションにおいて顕著な進歩を遂げた。この制限に対処するために、グラフィックエンジンから生成された注釈付きデータを使用してセグメンテーションモデルをトレーニングする。ドメイン間およびドメイン間ギャップを最小化する2段階の自己教師付きドメイン適応手法を提案する。
論文参考訳（メタデータ） (2020-04-16T15:24:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。