論文の概要: CIA: Controllable Image Augmentation Framework Based on Stable Diffusion
- arxiv url: http://arxiv.org/abs/2411.16128v1
- Date: Mon, 25 Nov 2024 06:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:31.923431
- Title: CIA: Controllable Image Augmentation Framework Based on Stable Diffusion
- Title(参考訳): CIA:安定拡散に基づく制御可能な画像拡張フレームワーク
- Authors: Mohamed Benkedadra, Dany Rimez, Tiffanie Godelaine, Natarajan Chidambaram, Hamed Razavi Khosroshahi, Horacio Tellez, Matei Mancas, Benoit Macq, Sidi Ahmed Mahmoudi,
- Abstract要約: データセット拡張のためのモジュールパイプラインであるCIAを紹介します。
我々は、CIAがトレーニングデータの最適な拡張パイプラインを探すのにどのように使えるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Computer vision tasks such as object detection and segmentation rely on the availability of extensive, accurately annotated datasets. In this work, We present CIA, a modular pipeline, for (1) generating synthetic images for dataset augmentation using Stable Diffusion, (2) filtering out low quality samples using defined quality metrics, (3) forcing the existence of specific patterns in generated images using accurate prompting and ControlNet. In order to show how CIA can be used to search for an optimal augmentation pipeline of training data, we study human object detection in a data constrained scenario, using YOLOv8n on COCO and Flickr30k datasets. We have recorded significant improvement using CIA-generated images, approaching the performances obtained when doubling the amount of real images in the dataset. Our findings suggest that our modular framework can significantly enhance object detection systems, and make it possible for future research to be done on data-constrained scenarios. The framework is available at: github.com/multitel-ai/CIA.
- Abstract(参考訳): オブジェクト検出やセグメンテーションなどのコンピュータビジョンタスクは、広範囲で正確に注釈付けされたデータセットの可用性に依存している。
本研究では,(1)安定拡散を用いたデータセット拡張のための合成画像の生成,(2)品質基準を用いた低品質サンプルのフィルタリング,(3)正確なプロンプトと制御ネットを用いた生成画像における特定のパターンの存在を強制するモジュールパイプラインであるCIAについて述べる。
トレーニングデータの最適な拡張パイプラインの探索にCIAをどのように利用できるかを示すため、COCOおよびFlickr30kデータセット上のYOLOv8nを用いて、データ制約シナリオにおける人間のオブジェクト検出について検討した。
我々は、CIAが生成した画像を用いて、データセット内の実画像の量を2倍にすることで得られた性能にかなり近づいたことを報告した。
我々のモジュラーフレームワークは、オブジェクト検出システムを大幅に強化し、データ制約のあるシナリオで将来の研究を可能にすることを示唆している。
フレームワークは、github.com/multitel-ai/CIAで利用可能である。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Expanding Small-Scale Datasets with Guided Imagination [92.5276783917845]
データセット拡張は、新しいラベル付きサンプルを自動生成することによって、使用可能な小さなデータセットを拡張することを目的とした、新しいタスクである。
GIFは、先行モデルの意味論的意味のある空間において、シードデータの潜伏した特徴を最適化することにより、データイマジネーションを行う。
GIF-SDは、SDによる非ガイド展開よりも、自然画像データセットのモデル精度が13.5%高い。
論文 参考訳(メタデータ) (2022-11-25T09:38:22Z) - Label-Free Synthetic Pretraining of Object Detectors [67.17371526567325]
そこで本稿では,SOLID(Synthetic Optimization layout with Instance Detection)という新しい手法を提案する。
筆者らのSOLIDアプローチは,(1)シーンアレンジメントを最適化した非ラベルの3Dモデルを用いた合成画像の生成,(2)"インスタンス検出"タスクにおけるオブジェクト検出の事前学習,の2つの主要コンポーネントから構成される。
当社のアプローチでは,事前学習のためのセマンティックラベルは必要とせず,任意の3Dモデルを使用することが可能である。
論文 参考訳(メタデータ) (2022-08-08T16:55:17Z) - Self-Supervised Object Detection via Generative Image Synthesis [106.65384648377349]
本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
論文 参考訳(メタデータ) (2021-10-19T11:04:05Z) - Six-channel Image Representation for Cross-domain Object Detection [17.854940064699985]
ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
論文 参考訳(メタデータ) (2021-01-03T04:50:03Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z) - Object Detection on Single Monocular Images through Canonical
Correlation Analysis [3.4722706398428493]
点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。
本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-13T05:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。