論文の概要: ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.15199v2
- Date: Tue, 05 Nov 2024 16:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:49.604003
- Title: ODGEN: Domain-specific Object Detection Data Generation with Diffusion Models
- Title(参考訳): ODGEN:拡散モデルを用いたドメイン固有物体検出データ生成
- Authors: Jingyuan Zhu, Shiyu Li, Yuxuan Liu, Ping Huang, Jiulong Shan, Huimin Ma, Jian Yuan,
- Abstract要約: 本稿では,境界ボックスに条件付き高品質な画像を生成する新しい方法であるODGENを提案する。
まず, 収穫した前景オブジェクトと画像全体を対象分布に合わせるために, 事前学習した拡散モデルを微調整する。
次に,空間的制約とオブジェクト指向のテキスト記述を伴って合成された視覚的ロバスト性プロンプトを用いて拡散モデルを制御することを提案する。
- 参考スコア(独自算出の注目度): 21.158266387658905
- License:
- Abstract: Modern diffusion-based image generative models have made significant progress and become promising to enrich training data for the object detection task. However, the generation quality and the controllability for complex scenes containing multi-class objects and dense objects with occlusions remain limited. This paper presents ODGEN, a novel method to generate high-quality images conditioned on bounding boxes, thereby facilitating data synthesis for object detection. Given a domain-specific object detection dataset, we first fine-tune a pre-trained diffusion model on both cropped foreground objects and entire images to fit target distributions. Then we propose to control the diffusion model using synthesized visual prompts with spatial constraints and object-wise textual descriptions. ODGEN exhibits robustness in handling complex scenes and specific domains. Further, we design a dataset synthesis pipeline to evaluate ODGEN on 7 domain-specific benchmarks to demonstrate its effectiveness. Adding training data generated by ODGEN improves up to 25.3% mAP@.50:.95 with object detectors like YOLOv5 and YOLOv7, outperforming prior controllable generative methods. In addition, we design an evaluation protocol based on COCO-2014 to validate ODGEN in general domains and observe an advantage up to 5.6% in mAP@.50:.95 against existing methods.
- Abstract(参考訳): 近代的な拡散に基づく画像生成モデルは大きな進歩を遂げ、オブジェクト検出タスクのトレーニングデータを強化することを約束している。
しかし,マルチクラスオブジェクトと密閉オブジェクトを含む複雑なシーンの生成品質と制御性は依然として限られている。
本稿では,オブジェクト検出のためのデータ合成を容易にするため,境界ボックスに条件付き高品質な画像を生成する新しい方法ODGENを提案する。
ドメイン固有のオブジェクト検出データセットが与えられた場合、まず、抽出した前景オブジェクトと画像全体に対して事前学習した拡散モデルを微調整し、ターゲット分布に適合させる。
そこで本研究では,空間的制約とオブジェクト指向テキスト記述を用いた合成視覚プロンプトを用いて拡散モデルを制御することを提案する。
ODGENは複雑なシーンや特定のドメインを扱う際に堅牢性を示す。
さらに、7つのドメイン固有のベンチマーク上でODGENを評価するためのデータセット合成パイプラインを設計し、その効果を実証する。
ODGENによって生成されたトレーニングデータを追加することで、YOLOv5やYOLOv7のようなオブジェクト検出器で25.3%のmAP@.50:.95が向上し、以前の制御可能な生成方法よりも優れている。
さらに、COCO-2014に基づく評価プロトコルを設計し、一般的なドメインでODGENを検証し、既存のメソッドに対して最大5.6%のmAP@.50:.95の利点を観察する。
関連論文リスト
- A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - DODA: Diffusion for Object-detection Domain Adaptation in Agriculture [4.549305421261851]
本稿では,農業の新しい領域を対象とした高品質なオブジェクト検出データを生成するデータシンセサイザーであるDODAを提案する。
具体的には、画像としてレイアウトを符号化することでレイアウト・ツー・イメージの制御性を向上し、ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-03-27T08:16:33Z) - Transfer learning with generative models for object detection on limited datasets [1.4999444543328293]
海洋生物学などいくつかの分野では、各物体の周囲に有界箱を正しくラベル付けする必要がある。
本稿では,一般的なシナリオに有効な伝達学習フレームワークを提案する。
我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。
論文 参考訳(メタデータ) (2024-02-09T21:17:31Z) - InstaGen: Enhancing Object Detection by Training on Synthetic Dataset [59.445498550159755]
本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
我々は、インスタンスレベルのグラウンドヘッドを事前訓練された生成拡散モデルに統合し、生成された画像のインスタンスをローカライズする機能で拡張する。
我々は、InstaGenと呼ばれる拡散モデルの強化版がデータシンセサイザーとして機能することを示すために、徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-08T18:59:53Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with
Efficient Labeled Data Factory [94.11898696478683]
ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としています。
本研究では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T12:34:55Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。