論文の概要: InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
- arxiv url: http://arxiv.org/abs/2402.05937v1
- Date: Thu, 8 Feb 2024 18:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:28:57.018986
- Title: InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
- Title(参考訳): InstaGen: 合成データセットのトレーニングによるオブジェクト検出の強化
- Authors: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie and Lin Ma
- Abstract要約: 本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
インスタンスレベルの接地ヘッドを事前学習した生成拡散モデルに統合する。
InstaGenからの合成データセットのトレーニング中にオブジェクト検出器を拡張できることを実証するために、徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 63.77586260979971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel paradigm to enhance the ability of object
detector, e.g., expanding categories or improving detection performance, by
training on synthetic dataset generated from diffusion models. Specifically, we
integrate an instance-level grounding head into a pre-trained, generative
diffusion model, to augment it with the ability of localising arbitrary
instances in the generated images. The grounding head is trained to align the
text embedding of category names with the regional visual feature of the
diffusion model, using supervision from an off-the-shelf object detector, and a
novel self-training scheme on (novel) categories not covered by the detector.
This enhanced version of diffusion model, termed as InstaGen, can serve as a
data synthesizer for object detection. We conduct thorough experiments to show
that, object detector can be enhanced while training on the synthetic dataset
from InstaGen, demonstrating superior performance over existing
state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to
5.2 AP) scenarios.
- Abstract(参考訳): 本稿では,拡散モデルから生成された合成データセットをトレーニングすることにより,カテゴリの拡大や検出性能の向上など,オブジェクト検出能力を高める新しいパラダイムを提案する。
具体的には、インスタンスレベルの接地ヘッドを事前訓練された生成拡散モデルに統合し、生成した画像に任意のインスタンスをローカライズする機能を拡張します。
接地ヘッドは、既設物体検出器からの監督と、検出器でカバーされていない(ノベル)カテゴリに関する新しい自己学習スキームを用いて、カテゴリ名のテキスト埋め込みを拡散モデルの地域視覚特徴に合わせるように訓練される。
この拡張バージョンの拡散モデルはInstaGenと呼ばれ、オブジェクト検出のためのデータシンセサイザーとして機能する。
InstaGenからの合成データセットのトレーニング中にオブジェクト検出器を拡張できることを示し、オープン語彙(+4.5 AP)およびデータスパース(+1.2から5.2 AP)シナリオにおける既存の最先端手法よりも優れた性能を示す。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - CycleHOI: Improving Human-Object Interaction Detection with Cycle Consistency of Detection and Generation [37.45945633515955]
本稿では,人間と物体の相互作用(HOI)の検出性能を高めるために,CycleHOIという新しい学習フレームワークを提案する。
我々の鍵となる設計は、HOI検出器のトレーニングのための新しいサイクル整合性損失を導入することである。
我々は,CycleHOIの有効性と一般化力を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-16T06:55:43Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Data-Independent Operator: A Training-Free Artifact Representation
Extractor for Generalizable Deepfake Detection [105.9932053078449]
本研究では,より一般的な人工物表現を捉えるのに,小型かつトレーニング不要なフィルタが十分であることを示す。
トレーニングソースとテストソースの両方に不偏があるため、未確認ソースに対して魅力的な改善を実現するために、Data-Independent Operator (DIO)と定義する。
我々の検出器は13.3%の大幅な改善を実現し、新しい最先端の性能を確立した。
論文 参考訳(メタデータ) (2024-03-11T15:22:28Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。