論文の概要: Explore the Power of Synthetic Data on Few-shot Object Detection
- arxiv url: http://arxiv.org/abs/2303.13221v2
- Date: Fri, 12 May 2023 05:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:44:29.352428
- Title: Explore the Power of Synthetic Data on Few-shot Object Detection
- Title(参考訳): Few-shot Object Detection における合成データのパワーの探索
- Authors: Shaobo Lin, Kun Wang, Xingyu Zeng, Rui Zhao
- Abstract要約: Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。
近年のテキスト・画像生成モデルでは,高品質な画像を生成する上で有望な結果が得られている。
この研究は、最先端のテキスト・ツー・イメージ・ジェネレータから生成された合成画像がFSODタスクにどのように貢献するかを幅広く研究している。
- 参考スコア(独自算出の注目度): 27.26215175101865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot object detection (FSOD) aims to expand an object detector for novel
categories given only a few instances for training. The few training samples
restrict the performance of FSOD model. Recent text-to-image generation models
have shown promising results in generating high-quality images. How applicable
these synthetic images are for FSOD tasks remains under-explored. This work
extensively studies how synthetic images generated from state-of-the-art
text-to-image generators benefit FSOD tasks. We focus on two perspectives: (1)
How to use synthetic data for FSOD? (2) How to find representative samples from
the large-scale synthetic dataset? We design a copy-paste-based pipeline for
using synthetic data. Specifically, saliency object detection is applied to the
original generated image, and the minimum enclosing box is used for cropping
the main object based on the saliency map. After that, the cropped object is
randomly pasted on the image, which comes from the base dataset. We also study
the influence of the input text of text-to-image generator and the number of
synthetic images used. To construct a representative synthetic training
dataset, we maximize the diversity of the selected images via a sample-based
and cluster-based method. However, the severe problem of high false positives
(FP) ratio of novel categories in FSOD can not be solved by using synthetic
data. We propose integrating CLIP, a zero-shot recognition model, into the FSOD
pipeline, which can filter 90% of FP by defining a threshold for the similarity
score between the detected object and the text of the predicted category.
Extensive experiments on PASCAL VOC and MS COCO validate the effectiveness of
our method, in which performance gain is up to 21.9% compared to the few-shot
baseline.
- Abstract(参考訳): Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。
少数のトレーニングサンプルではFSODモデルの性能が制限されている。
近年のテキスト・画像生成モデルは,高品質な画像を生成する上で有望な結果を示している。
これらの合成画像がいかにfsodタスクに適用可能かはまだ未調査のままである。
この研究は、最先端のテキスト対画像生成装置から生成された合成画像がfsodタスクにどのように役立つかを広範囲に研究している。
我々は,(1)fsodのための合成データの使い方という2つの視点に注目した。
2)大規模合成データセットから代表サンプルを見つける方法
合成データを使用するためのコピーペーストベースのパイプラインを設計する。
具体的には、元の生成した画像に塩分オブジェクト検出を施し、塩分マップに基づいて主オブジェクトの切り取りに最小の封止ボックスを使用する。
その後、切り取られたオブジェクトは、ベースデータセットからのイメージにランダムにペーストされる。
また,テキスト対画像生成装置の入力テキストと使用する合成画像数の影響について検討した。
代表的な合成訓練データセットを構築するために,サンプルベースおよびクラスタベースによる選択画像の多様性を最大化する。
しかし, FSODにおける新規カテゴリーの偽陽性率(FP)の深刻な問題は, 合成データを用いては解決できない。
ゼロショット認識モデルであるCLIPをFSODパイプラインに統合し、検出したオブジェクトと予測されたカテゴリのテキストの類似度スコアのしきい値を定義することにより、FPの90%をフィルタすることができる。
PASCAL VOC と MS COCO の大規模実験により,本手法の有効性が検証された。
関連論文リスト
- The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better [39.57368843211441]
すべての合成画像は、最終的にジェネレータを訓練するために使用される上流データに由来する。
我々は, LAION-2Bから直接取得した目標実画像に対して, 安定拡散によって生成されたタスク関連ターゲット合成データを微調整と比較した。
解析の結果,このアンダーパフォーマンスは生成物と,合成画像中のタスク関連視覚的詳細が不正確なためであることが示唆された。
論文 参考訳(メタデータ) (2024-06-07T18:04:21Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Label-Free Synthetic Pretraining of Object Detectors [67.17371526567325]
そこで本稿では,SOLID(Synthetic Optimization layout with Instance Detection)という新しい手法を提案する。
筆者らのSOLIDアプローチは,(1)シーンアレンジメントを最適化した非ラベルの3Dモデルを用いた合成画像の生成,(2)"インスタンス検出"タスクにおけるオブジェクト検出の事前学習,の2つの主要コンポーネントから構成される。
当社のアプローチでは,事前学習のためのセマンティックラベルは必要とせず,任意の3Dモデルを使用することが可能である。
論文 参考訳(メタデータ) (2022-08-08T16:55:17Z) - A Deep Learning Generative Model Approach for Image Synthesis of Plant
Leaves [62.997667081978825]
我々は,高度深層学習(DL)技術を用いて,人工葉画像の自動生成を行う。
我々は、現代の作物管理のためのAIアプリケーションのためのトレーニングサンプルのソースを処分することを目指している。
論文 参考訳(メタデータ) (2021-11-05T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。