論文の概要: Domain-Adaptive Self-Supervised Pre-Training for Face & Body Detection
in Drawings
- arxiv url: http://arxiv.org/abs/2211.10641v2
- Date: Tue, 25 Apr 2023 10:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 00:02:57.854131
- Title: Domain-Adaptive Self-Supervised Pre-Training for Face & Body Detection
in Drawings
- Title(参考訳): 図面における顔・身体検出のためのドメイン適応型自己監督型事前訓練
- Authors: Bar{\i}\c{s} Batuhan Topal, Deniz Yuret, Tevfik Metin Sezgin
- Abstract要約: 学生ネットワークの更新設計を改良した教師学生ネットワークに基づく自己教師型学習が,顔と身体を検知するシステムの構築にどのように役立つかを示す。
私たちの設定では、少数のサブセットのみにラベルが提供される場合、ターゲットドメインから大量のラベル付きデータを利用できます。
組合わされたアーキテクチャは,最小限のアノテーション工法を用いて,最先端(SOTA)および近SOTA性能の検出器を生成する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Drawings are powerful means of pictorial abstraction and communication.
Understanding diverse forms of drawings, including digital arts, cartoons, and
comics, has been a major problem of interest for the computer vision and
computer graphics communities. Although there are large amounts of digitized
drawings from comic books and cartoons, they contain vast stylistic variations,
which necessitate expensive manual labeling for training domain-specific
recognizers. In this work, we show how self-supervised learning, based on a
teacher-student network with a modified student network update design, can be
used to build face and body detectors. Our setup allows exploiting large
amounts of unlabeled data from the target domain when labels are provided for
only a small subset of it. We further demonstrate that style transfer can be
incorporated into our learning pipeline to bootstrap detectors using a vast
amount of out-of-domain labeled images from natural images (i.e., images from
the real world). Our combined architecture yields detectors with
state-of-the-art (SOTA) and near-SOTA performance using minimal annotation
effort. Our code can be accessed from
https://github.com/barisbatuhan/DASS_Detector.
- Abstract(参考訳): 図面は絵の抽象とコミュニケーションの強力な手段である。
デジタルアート、漫画、漫画など様々な形の図面を理解することは、コンピュータビジョンやコンピュータグラフィックスのコミュニティにとって大きな関心事となっている。
漫画や漫画のデジタル化図面は多いが、多彩なスタイルのバリエーションがあり、ドメイン固有認識器の訓練に高価な手書きラベルを必要とする。
本研究では,学生ネットワークの更新設計を改良した教師学生ネットワークに基づく自己教師型学習が,顔と身体の検知にどのように役立つかを示す。
私たちの設定では、少数のサブセットのみにラベルが提供される場合、ターゲットドメインから大量のラベル付きデータを利用できます。
さらに我々は,自然画像(現実世界の画像)から大量のドメイン外ラベル付き画像を用いて,学習パイプラインからブートストラップ検出器へのスタイル転送が可能であることを実証した。
組合わされたアーキテクチャは,最小限のアノテーションによる最先端(SOTA)および近SOTA性能の検出器を生成する。
私たちのコードはhttps://github.com/barisbatuhan/DASS_Detectorからアクセスできます。
関連論文リスト
- Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - What Can Human Sketches Do for Object Detection? [127.67444974452411]
スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
論文 参考訳(メタデータ) (2023-03-27T12:33:23Z) - Learning to Detect Semantic Boundaries with Image-level Class Labels [14.932318540666548]
本稿では,画像レベルのクラスラベルを教師として用いたセマンティック境界検出の学習の試みについて述べる。
対象クラスの粗い領域を画像分類網の注意点から推定することから始める。
我々は、不確実な監視の下でも、セマンティックバウンダリを確実に見積もることができる新しいニューラルネットワークアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-12-15T01:56:22Z) - A Multi Camera Unsupervised Domain Adaptation Pipeline for Object
Detection in Cultural Sites through Adversarial Learning and Self-Training [23.186208885878926]
本稿では,対象検出のためのドメイン適応の問題を研究するために,文化的な場所で収集された新しいデータセットを提案する。
本稿では,現在の最先端手法よりも優れたドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-03T10:40:58Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Unsupervised Self-training Algorithm Based on Deep Learning for Optical
Aerial Images Change Detection [17.232244800511523]
本稿では,光学的空中画像変化検出のための教師なし自己学習アルゴリズム(USTA)を提案する。
アルゴリズム全体のプロセスは、手動でマークされたラベルなしで教師なしのプロセスである。
実データを用いた実験により,提案手法の競合性能が示された。
論文 参考訳(メタデータ) (2020-10-15T01:51:46Z) - Improving Object Detection with Selective Self-supervised Self-training [62.792445237541145]
本研究では,Web画像を利用した人為的対象検出データセットの強化について検討する。
画像と画像の検索によりWebイメージを検索し、他の検索手法に比べて、キュレートされたデータからのドメインシフトが少なくなる。
画像分類のためのラベルのないデータを探索する2つの並列処理をモチベーションとした新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T18:05:01Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。