論文の概要: On-the-fly Object Detection using StyleGAN with CLIP Guidance
- arxiv url: http://arxiv.org/abs/2210.16742v1
- Date: Sun, 30 Oct 2022 04:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 14:54:19.371179
- Title: On-the-fly Object Detection using StyleGAN with CLIP Guidance
- Title(参考訳): CLIP誘導を用いたStyleGANを用いたオンザフライ物体検出
- Authors: Yuzhe Lu, Shusen Liu, Jayaraman J. Thiagarajan, Wesam Sakla, Rushil
Anirudh
- Abstract要約: 我々は、人間の介入を必要とせず、衛星画像上に物体検出装置を構築するための完全に自動化された枠組みを提案する。
我々は、現代の生成モデル(StyleGANなど)のパワーと、近年のマルチモーダル学習(CLIPなど)の進歩を融合して実現している。
- 参考スコア(独自算出の注目度): 28.25720358443378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a fully automated framework for building object detectors on
satellite imagery without requiring any human annotation or intervention. We
achieve this by leveraging the combined power of modern generative models
(e.g., StyleGAN) and recent advances in multi-modal learning (e.g., CLIP).
While deep generative models effectively encode the key semantics pertinent to
a data distribution, this information is not immediately accessible for
downstream tasks, such as object detection. In this work, we exploit CLIP's
ability to associate image features with text descriptions to identify neurons
in the generator network, which are subsequently used to build detectors
on-the-fly.
- Abstract(参考訳): 衛星画像上に物体検出器を構築するための完全自動化フレームワークを提案する。
我々は、現代の生成モデル(StyleGANなど)のパワーと、近年のマルチモーダル学習(CLIPなど)の進歩を融合して実現している。
深層生成モデルは、データ分散に関連するキーセマンティクスを効果的にエンコードするが、この情報はオブジェクト検出のような下流タスクに即座にアクセスできない。
本研究では、画像特徴とテキスト記述を関連付けるクリップの能力を利用して、生成ネットワーク内のニューロンを識別し、その後、検出器をオンザフライで構築する。
関連論文リスト
- Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - InstaGen: Enhancing Object Detection by Training on Synthetic Dataset [63.77586260979971]
本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
インスタンスレベルの接地ヘッドを事前学習した生成拡散モデルに統合する。
InstaGenからの合成データセットのトレーニング中にオブジェクト検出器を拡張できることを実証するために、徹底的な実験を行った。
論文 参考訳(メタデータ) (2024-02-08T18:59:53Z) - Enhancing Novel Object Detection via Cooperative Foundational Models [75.30243629533277]
本稿では,既存のクローズドセット検出器をオープンセット検出器に変換する新しい手法を提案する。
私たちは、新しいクラスに対して7.2$ textAP_50 のマージンで現在の最先端を越えています。
論文 参考訳(メタデータ) (2023-11-19T17:28:28Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - PARTICUL: Part Identification with Confidence measure using Unsupervised
Learning [0.0]
PartICULは、きめ細かい認識に使われるデータセットから部分検出器を教師なしで学習するための新しいアルゴリズムである。
トレーニングセット内のすべての画像のマクロ類似性を利用して、事前訓練された畳み込みニューラルネットワークの特徴空間における繰り返しパターンをマイニングする。
我々の検出器は、その予測に対する信頼度を測りながら、物体の一部を一貫して強調することができることを示す。
論文 参考訳(メタデータ) (2022-06-27T13:44:49Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Self-Supervised Object Detection via Generative Image Synthesis [106.65384648377349]
本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
論文 参考訳(メタデータ) (2021-10-19T11:04:05Z) - Detective: An Attentive Recurrent Model for Sparse Object Detection [25.5804429439316]
ディテクティヴ(英: Detective)は、画像中の物体を連続的に識別する注意オブジェクト検出器である。
Detectiveはスパースオブジェクト検出器で、オブジェクトインスタンス毎に単一のバウンディングボックスを生成する。
ハンガリーのアルゴリズムに基づく学習機構と,局所化と分類タスクのバランスをとる損失を提案する。
論文 参考訳(メタデータ) (2020-04-25T17:41:52Z) - Decoupling Global and Local Representations via Invertible Generative
Flows [47.366299240738094]
標準画像ベンチマークによる実験結果から, 密度推定, 画像生成, 教師なし表現学習の観点から, モデルの有効性が示された。
この研究は、確率に基づく目的を持つ生成モデルが疎結合表現を学習でき、明示的な監督を必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-12T03:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。