論文の概要: On-the-fly Object Detection using StyleGAN with CLIP Guidance
- arxiv url: http://arxiv.org/abs/2210.16742v1
- Date: Sun, 30 Oct 2022 04:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 14:54:19.371179
- Title: On-the-fly Object Detection using StyleGAN with CLIP Guidance
- Title(参考訳): CLIP誘導を用いたStyleGANを用いたオンザフライ物体検出
- Authors: Yuzhe Lu, Shusen Liu, Jayaraman J. Thiagarajan, Wesam Sakla, Rushil
Anirudh
- Abstract要約: 我々は、人間の介入を必要とせず、衛星画像上に物体検出装置を構築するための完全に自動化された枠組みを提案する。
我々は、現代の生成モデル(StyleGANなど)のパワーと、近年のマルチモーダル学習(CLIPなど)の進歩を融合して実現している。
- 参考スコア(独自算出の注目度): 28.25720358443378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a fully automated framework for building object detectors on
satellite imagery without requiring any human annotation or intervention. We
achieve this by leveraging the combined power of modern generative models
(e.g., StyleGAN) and recent advances in multi-modal learning (e.g., CLIP).
While deep generative models effectively encode the key semantics pertinent to
a data distribution, this information is not immediately accessible for
downstream tasks, such as object detection. In this work, we exploit CLIP's
ability to associate image features with text descriptions to identify neurons
in the generator network, which are subsequently used to build detectors
on-the-fly.
- Abstract(参考訳): 衛星画像上に物体検出器を構築するための完全自動化フレームワークを提案する。
我々は、現代の生成モデル(StyleGANなど)のパワーと、近年のマルチモーダル学習(CLIPなど)の進歩を融合して実現している。
深層生成モデルは、データ分散に関連するキーセマンティクスを効果的にエンコードするが、この情報はオブジェクト検出のような下流タスクに即座にアクセスできない。
本研究では、画像特徴とテキスト記述を関連付けるクリップの能力を利用して、生成ネットワーク内のニューロンを識別し、その後、検出器をオンザフライで構築する。
関連論文リスト
- An Application-Agnostic Automatic Target Recognition System Using Vision Language Models [32.858386851006316]
オープン語彙オブジェクト検出と分類モデルを用いた新しい自動ターゲット認識(ATR)システムを提案する。
このアプローチの主な利点は、非技術的エンドユーザーによって実行直前にターゲットクラスを定義することができることである。
所望のターゲットのナンスを自然言語で表現することは、トレーニングデータをほとんどあるいは全く持たないユニークなターゲットに役立ちます。
論文 参考訳(メタデータ) (2024-11-05T20:16:15Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - InstaGen: Enhancing Object Detection by Training on Synthetic Dataset [59.445498550159755]
本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
我々は、インスタンスレベルのグラウンドヘッドを事前訓練された生成拡散モデルに統合し、生成された画像のインスタンスをローカライズする機能で拡張する。
我々は、InstaGenと呼ばれる拡散モデルの強化版がデータシンセサイザーとして機能することを示すために、徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-08T18:59:53Z) - Enhancing Novel Object Detection via Cooperative Foundational Models [75.30243629533277]
本稿では,既存のクローズドセット検出器をオープンセット検出器に変換する新しい手法を提案する。
私たちは、新しいクラスに対して7.2$ textAP_50 のマージンで現在の最先端を越えています。
論文 参考訳(メタデータ) (2023-11-19T17:28:28Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Self-Supervised Object Detection via Generative Image Synthesis [106.65384648377349]
本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
論文 参考訳(メタデータ) (2021-10-19T11:04:05Z) - Detective: An Attentive Recurrent Model for Sparse Object Detection [25.5804429439316]
ディテクティヴ(英: Detective)は、画像中の物体を連続的に識別する注意オブジェクト検出器である。
Detectiveはスパースオブジェクト検出器で、オブジェクトインスタンス毎に単一のバウンディングボックスを生成する。
ハンガリーのアルゴリズムに基づく学習機構と,局所化と分類タスクのバランスをとる損失を提案する。
論文 参考訳(メタデータ) (2020-04-25T17:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。