Fugu-MT 論文翻訳(概要): Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance

論文の概要: Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance

arxiv url: http://arxiv.org/abs/2409.06002v2
Date: Thu, 12 Sep 2024 10:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 13:20:50.095959
Title: Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance
Title（参考訳）: より強力な誘導によるセマンティックセグメンテーションのための生成データ強化
Authors: Quang-Huy Che, Duc-Tri Le, Vinh-Tiep Nguyen,
Abstract要約: 制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。提案手法は,クラス・プロンプト・アペンディングとビジュアル・プリミティブ・コンバインドを用いた効率的なプロンプト生成を含む。提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。
参考スコア（独自算出の注目度）: 1.2923961938782627
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Data augmentation is a widely used technique for creating training data for tasks that require labeled data, such as semantic segmentation. This method benefits pixel-wise annotation tasks requiring much effort and intensive labor. Traditional data augmentation methods involve simple transformations like rotations and flips to create new images from existing ones. However, these new images may lack diversity along the main semantic axes in the data and not change high-level semantic properties. To address this issue, generative models have emerged as an effective solution for augmenting data by generating synthetic images. Controllable generative models offer a way to augment data for semantic segmentation tasks using a prompt and visual reference from the original image. However, using these models directly presents challenges, such as creating an effective prompt and visual reference to generate a synthetic image that accurately reflects the content and structure of the original. In this work, we introduce an effective data augmentation method for semantic segmentation using the Controllable Diffusion Model. Our proposed method includes efficient prompt generation using Class-Prompt Appending and Visual Prior Combination to enhance attention to labeled classes in real images. These techniques allow us to generate images that accurately depict segmented classes in the real image. In addition, we employ the class balancing algorithm to ensure efficiency when merging the synthetic and original images to generate balanced data for the training dataset. We evaluated our method on the PASCAL VOC datasets and found it highly effective for synthesizing images in semantic segmentation.
Abstract（参考訳）: データ拡張は、セマンティックセグメンテーションのようなラベル付きデータを必要とするタスクのためのトレーニングデータを作成するために広く使用されるテクニックである。この方法は、多くの労力と集中的な労力を必要とする画素単位のアノテーションタスクに役立ちます。従来のデータ拡張方法は、回転やフリップのような単純な変換を伴って、既存のものから新しいイメージを生成する。しかし、これらの新しい画像はデータの主セマンティック軸に沿って多様性が欠如し、高レベルのセマンティック特性が変化しない可能性がある。この問題に対処するために、生成モデルは、合成画像を生成してデータを増強するための有効なソリューションとして登場した。制御可能な生成モデルは、元の画像からのプロンプトと視覚的参照を使用して、セマンティックセグメンテーションタスクのためのデータを増やす方法を提供する。しかし、これらのモデルを使用することで、効果的なプロンプトと視覚的参照を作成し、オリジナルの内容と構造を正確に反映した合成画像を生成するといった課題を直接提示する。本研究では,制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。提案手法は,実画像におけるラベル付きクラスへの注意を高めるために,クラス・プロンプト・アペンディングとビジュアル・プライオリデーションを用いた効率的なプロンプト生成を含む。これらの手法により、実画像中のセグメント化されたクラスを正確に描写する画像を生成することができる。さらに,学習データセットのバランスデータを生成するために,合成画像と原画像とをマージする際の効率を確保するために,クラスバランスアルゴリズムを用いる。提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。

関連論文リスト

Data Factory with Minimal Human Effort Using VLMs [35.30747487237989]
我々は、予め訓練されたコントロールネットとビジョンランゲージモデル(VLM)を統合して、ピクセルレベルのラベルと組み合わせた合成画像を生成する。このアプローチは手動のアノテーションの必要性を排除し、下流のタスクを大幅に改善します。 PASCAL-5i と COCO-20i は,単発セマンティックセマンティックセグメンテーションにおいて有望な性能と性能を示す。
論文参考訳（メタデータ） (2025-10-07T09:43:24Z)
Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文参考訳（メタデータ） (2024-09-30T10:21:54Z)
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文参考訳（メタデータ） (2024-06-28T10:05:58Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation [10.225021032417589]
本稿では,スクリブル教師付きセマンティックセグメンテーションのための生成データ拡張手法であるScribbleGenを提案する。セマンティックスクリブルに条件付き制御ネット拡散モデルを用いて,高品質なトレーニングデータを生成する。我々のフレームワークは、完全に教師されたセグメンテーションを超越しても、小さなデータセットでのセグメンテーション性能を著しく改善することを示す。
論文参考訳（メタデータ） (2023-11-28T13:44:33Z)
FuseNet: Self-Supervised Dual-Path Network for Medical Image Segmentation [3.485615723221064]
FuseNetは、自己教師型セマンティックセグメンテーションのためのデュアルストリームフレームワークである。クロスモーダル融合技術は、テキストデータを拡張画像に置き換えることで、CLIPの原理を拡張している。皮膚病変と肺分画データセットの実験により, 本手法の有効性が示された。
論文参考訳（メタデータ） (2023-11-22T00:03:16Z)
Adapt Anything: Tailor Any Image Classifiers across Domains And Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文参考訳（メタデータ） (2023-10-25T11:58:14Z)
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation [6.82236459614491]
テキストから画像への生成モデルであるStable Diffusionを用いて,ピクセルレベルのセマンティックセマンティックセマンティクスラベルを生成する手法を提案する。テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
論文参考訳（メタデータ） (2023-09-25T17:19:26Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文参考訳（メタデータ） (2023-08-09T09:35:16Z)
Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文参考訳（メタデータ） (2023-04-05T09:24:45Z)
Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文参考訳（メタデータ） (2023-02-07T20:42:28Z)
HandsOff: Labeled Dataset Generation With No Additional Human Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文参考訳（メタデータ） (2022-12-24T03:37:02Z)
High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。 CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文参考訳（メタデータ） (2022-11-10T18:58:22Z)
Self-Supervised Generative Style Transfer for One-Shot Medical Image Segmentation [10.634870214944055]
医用画像のセグメンテーションにおいて、教師付きディープネットワークの成功は、豊富なラベル付きデータを必要とするコストが伴う。本稿では,ボリューム画像分割ペアを合成可能なデータ拡張のための,新しいボリューム自己教師型学習法を提案する。我々の研究の中心的信条は、ワンショット生成学習と自己指導型学習戦略の併用による恩恵を受けている。
論文参考訳（メタデータ） (2021-10-05T15:28:42Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
Half-Real Half-Fake Distillation for Class-Incremental Semantic Segmentation [84.1985497426083]
畳み込みニューラルネットワークは漸進的な学習に不適である。新しいクラスは利用できるが、初期トレーニングデータは保持されない。訓練されたセグメンテーションネットワークを「反転」して、ランダムノイズから始まる入力画像の合成を試みる。
論文参考訳（メタデータ） (2021-04-02T03:47:16Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)
Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。 Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文参考訳（メタデータ） (2020-09-18T14:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。