Fugu-MT 論文翻訳(概要): Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance

論文の概要: Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance

arxiv url: http://arxiv.org/abs/2409.06002v3
Date: Mon, 23 Dec 2024 09:57:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.689747
Title: Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance
Title（参考訳）: より強力な誘導によるセマンティックセグメンテーションのための生成データ強化
Authors: Quang-Huy Che, Duc-Tri Le, Bich-Nga Pham, Duc-Khai Lam, Vinh-Tiep Nguyen,
Abstract要約: 制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張パイプラインを提案する。提案手法は,textitClass-Prompt Appending と textitVisual Prior Blending を用いた効率的なプロンプト生成を含む。このパイプラインは,セマンティックセグメンテーションのための高品質な合成画像を生成する上での有効性を示す。
参考スコア（独自算出の注目度）: 1.1027204173383738
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Data augmentation is crucial for pixel-wise annotation tasks like semantic segmentation, where labeling requires significant effort and intensive labor. Traditional methods, involving simple transformations such as rotations and flips, create new images but often lack diversity along key semantic dimensions and fail to alter high-level semantic properties. To address this issue, generative models have emerged as an effective solution for augmenting data by generating synthetic images. Controllable Generative models offer data augmentation methods for semantic segmentation tasks by using prompts and visual references from the original image. However, these models face challenges in generating synthetic images that accurately reflect the content and structure of the original image due to difficulties in creating effective prompts and visual references. In this work, we introduce an effective data augmentation pipeline for semantic segmentation using Controllable Diffusion model. Our proposed method includes efficient prompt generation using \textit{Class-Prompt Appending} and \textit{Visual Prior Blending} to enhance attention to labeled classes in real images, allowing the pipeline to generate a precise number of augmented images while preserving the structure of segmentation-labeled classes. In addition, we implement a \textit{class balancing algorithm} to ensure a balanced training dataset when merging the synthetic and original images. Evaluation on PASCAL VOC datasets, our pipeline demonstrates its effectiveness in generating high-quality synthetic images for semantic segmentation. Our code is available at \href{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-S tronger-Guidance}{this https URL}.
Abstract（参考訳）: データ拡張はセマンティックセグメンテーションのようなピクセル単位のアノテーションタスクには不可欠である。回転やフリップのような単純な変換を含む伝統的な手法は、新しい画像を生成するが、重要な意味論の次元に沿って多様性を欠くことが多く、高レベルの意味論の性質を変化させることができない。この問題に対処するために、生成モデルは、合成画像を生成してデータを増強するための有効なソリューションとして登場した。制御可能な生成モデルは、原画像からのプロンプトと視覚的参照を使用することで、セマンティックセグメンテーションタスクのためのデータ拡張方法を提供する。しかし、これらのモデルは、効果的なプロンプトや視覚的参照を作成するのが困難であるため、元の画像の内容と構造を正確に反映した合成画像を生成する上で困難に直面している。本研究では,制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張パイプラインを提案する。提案手法は,実画像中のラベル付きクラスに注意を向けるために, {textit{Class-Prompt Appending} と \textit{Visual Prior Blending} を用いた効率的なプロンプト生成を含む。さらに、合成画像と原画像の融合時にバランスの取れたトレーニングデータセットを確保するために、 \textit{class balance algorithm} を実装した。我々のパイプラインはPASCAL VOCデータセットの評価を行い、セマンティックセグメンテーションのための高品質な合成画像の生成の有効性を示した。私たちのコードは \href{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-S tronger-Guidance}{this https URL} で利用可能です。

関連論文リスト

Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文参考訳（メタデータ） (2024-09-30T10:21:54Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
FuseNet: Self-Supervised Dual-Path Network for Medical Image Segmentation [3.485615723221064]
FuseNetは、自己教師型セマンティックセグメンテーションのためのデュアルストリームフレームワークである。クロスモーダル融合技術は、テキストデータを拡張画像に置き換えることで、CLIPの原理を拡張している。皮膚病変と肺分画データセットの実験により, 本手法の有効性が示された。
論文参考訳（メタデータ） (2023-11-22T00:03:16Z)
Adapt Anything: Tailor Any Image Classifiers across Domains And Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文参考訳（メタデータ） (2023-10-25T11:58:14Z)
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation [6.82236459614491]
テキストから画像への生成モデルであるStable Diffusionを用いて,ピクセルレベルのセマンティックセマンティックセマンティクスラベルを生成する手法を提案する。テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
論文参考訳（メタデータ） (2023-09-25T17:19:26Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文参考訳（メタデータ） (2023-08-09T09:35:16Z)
Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文参考訳（メタデータ） (2023-04-05T09:24:45Z)
Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文参考訳（メタデータ） (2023-02-07T20:42:28Z)
HandsOff: Labeled Dataset Generation With No Additional Human Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文参考訳（メタデータ） (2022-12-24T03:37:02Z)
High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。 CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文参考訳（メタデータ） (2022-11-10T18:58:22Z)
Self-Supervised Generative Style Transfer for One-Shot Medical Image Segmentation [10.634870214944055]
医用画像のセグメンテーションにおいて、教師付きディープネットワークの成功は、豊富なラベル付きデータを必要とするコストが伴う。本稿では,ボリューム画像分割ペアを合成可能なデータ拡張のための,新しいボリューム自己教師型学習法を提案する。我々の研究の中心的信条は、ワンショット生成学習と自己指導型学習戦略の併用による恩恵を受けている。
論文参考訳（メタデータ） (2021-10-05T15:28:42Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
Half-Real Half-Fake Distillation for Class-Incremental Semantic Segmentation [84.1985497426083]
畳み込みニューラルネットワークは漸進的な学習に不適である。新しいクラスは利用できるが、初期トレーニングデータは保持されない。訓練されたセグメンテーションネットワークを「反転」して、ランダムノイズから始まる入力画像の合成を試みる。
論文参考訳（メタデータ） (2021-04-02T03:47:16Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)
Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。 Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文参考訳（メタデータ） (2020-09-18T14:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。