論文の概要: InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
- arxiv url: http://arxiv.org/abs/2402.05937v2
- Date: Tue, 20 Feb 2024 03:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:25:53.759605
- Title: InstaGen: Enhancing Object Detection by Training on Synthetic Dataset
- Title(参考訳): InstaGen: 合成データセットのトレーニングによるオブジェクト検出の強化
- Authors: Chengjian Feng, Yujie Zhong, Zequn Jie, Weidi Xie and Lin Ma
- Abstract要約: 本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
インスタンスレベルの接地ヘッドを事前学習した生成拡散モデルに統合する。
InstaGenからの合成データセットのトレーニング中にオブジェクト検出器を拡張できることを実証するために、徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 63.77586260979971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel paradigm to enhance the ability of object
detector, e.g., expanding categories or improving detection performance, by
training on synthetic dataset generated from diffusion models. Specifically, we
integrate an instance-level grounding head into a pre-trained, generative
diffusion model, to augment it with the ability of localising arbitrary
instances in the generated images. The grounding head is trained to align the
text embedding of category names with the regional visual feature of the
diffusion model, using supervision from an off-the-shelf object detector, and a
novel self-training scheme on (novel) categories not covered by the detector.
This enhanced version of diffusion model, termed as InstaGen, can serve as a
data synthesizer for object detection. We conduct thorough experiments to show
that, object detector can be enhanced while training on the synthetic dataset
from InstaGen, demonstrating superior performance over existing
state-of-the-art methods in open-vocabulary (+4.5 AP) and data-sparse (+1.2 to
5.2 AP) scenarios.
- Abstract(参考訳): 本稿では,拡散モデルから生成された合成データセットをトレーニングすることにより,カテゴリの拡大や検出性能の向上など,オブジェクト検出能力を高める新しいパラダイムを提案する。
具体的には、インスタンスレベルの接地ヘッドを事前訓練された生成拡散モデルに統合し、生成した画像に任意のインスタンスをローカライズする機能を拡張します。
接地ヘッドは、既設物体検出器からの監督と、検出器でカバーされていない(ノベル)カテゴリに関する新しい自己学習スキームを用いて、カテゴリ名のテキスト埋め込みを拡散モデルの地域視覚特徴に合わせるように訓練される。
この拡張バージョンの拡散モデルはInstaGenと呼ばれ、オブジェクト検出のためのデータシンセサイザーとして機能する。
InstaGenからの合成データセットのトレーニング中にオブジェクト検出器を拡張できることを示し、オープン語彙(+4.5 AP)およびデータスパース(+1.2から5.2 AP)シナリオにおける既存の最先端手法よりも優れた性能を示す。
関連論文リスト
- Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Boosting Human-Object Interaction Detection with Text-to-Image Diffusion
Model [22.31860516617302]
本稿では,事前学習したテキスト画像拡散モデルに基づく新しいHOI検出方式であるDiffHOIを紹介する。
HOIデータセットのギャップを埋めるために、クラスバランス、大規模、高多様性の合成データセットであるSynHOIを提案する。
実験により、DiffHOIは通常の検出(41.50 mAP)とゼロショット検出において、最先端の技術を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-20T17:59:23Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。