論文の概要: Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model
- arxiv url: http://arxiv.org/abs/2409.20164v1
- Date: Mon, 30 Sep 2024 10:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 13:17:58.994527
- Title: Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model
- Title(参考訳): Erase, then Redraw:拡散モデルを用いた自由空間検出のための新しいデータ拡張手法
- Authors: Fulong Ma, Weiqing Qi, Guoyang Zhao, Ming Liu, Jun Ma,
- Abstract要約: 従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。
画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。
我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
- 参考スコア(独自算出の注目度): 5.57325257338134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is one of the most common tools in deep learning, underpinning many recent advances including tasks such as classification, detection, and semantic segmentation. The standard approach to data augmentation involves simple transformations like rotation and flipping to generate new images. However, these new images often lack diversity along the main semantic dimensions within the data. Traditional data augmentation methods cannot alter high-level semantic attributes such as the presence of vehicles, trees, and buildings in a scene to enhance data diversity. In recent years, the rapid development of generative models has injected new vitality into the field of data augmentation. In this paper, we address the lack of diversity in data augmentation for road detection task by using a pre-trained text-to-image diffusion model to parameterize image-to-image transformations. Our method involves editing images using these diffusion models to change their semantics. In essence, we achieve this goal by erasing instances of real objects from the original dataset and generating new instances with similar semantics in the erased regions using the diffusion model, thereby expanding the original dataset. We evaluate our approach on the KITTI road dataset and achieve the best results compared to other data augmentation methods, which demonstrates the effectiveness of our proposed development.
- Abstract(参考訳): データ拡張はディープラーニングにおいて最も一般的なツールの1つであり、分類、検出、セマンティックセグメンテーションといったタスクを含む最近の多くの進歩を支えている。
データ拡張に対する標準的なアプローチは、ローテーションやフリップのような単純な変換によって新しい画像を生成する。
しかし、これらの新しい画像は、しばしばデータ内の主要な意味的次元に沿って多様性を欠いている。
従来のデータ拡張手法では、データの多様性を高めるために、車や木、建物などの高レベルのセマンティック属性を変更することはできない。
近年、生成モデルの急速な発展により、データ拡張の分野に新たな活力が注入されている。
本稿では,事前学習したテキスト・ツー・イメージ拡散モデルを用いて画像・画像変換をパラメータ化することにより,道路検出作業におけるデータ拡張の多様性の欠如に対処する。
本手法では,これらの拡散モデルを用いて画像の編集を行い,セマンティクスを変化させる。
本質的には、この目標を達成するために、元のデータセットから実際のオブジェクトのインスタンスを消去し、拡散モデルを用いて消去された領域に類似したセマンティクスを持つ新しいインスタンスを生成し、元のデータセットを拡張する。
我々は、KITTIロードデータセットに対する我々のアプローチを評価し、提案手法の有効性を示す他のデータ拡張手法と比較して、最良の結果を得る。
関連論文リスト
- Dataset Enhancement with Instance-Level Augmentations [20.935062361595197]
本稿では,事前学習した潜伏拡散モデルの広範な分布から知識を取り入れたデータセットの拡張手法を提案する。
単純なピクセル変換を超えて、画像の一部をオブジェクトインスタンスのレベルで再描画することで、インスタンスレベルのデータ拡張の概念を導入します。
論文 参考訳(メタデータ) (2024-06-12T14:18:07Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Local Magnification for Data and Feature Augmentation [53.04028225837681]
LOMA(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。
LOMAは、画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。
実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-15T02:51:59Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。