論文の概要: What Can Human Sketches Do for Object Detection?
- arxiv url: http://arxiv.org/abs/2303.15149v2
- Date: Sat, 28 Oct 2023 17:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:07:35.159110
- Title: What Can Human Sketches Do for Object Detection?
- Title(参考訳): 人間のスケッチは物体検出に何ができるのか?
- Authors: Pinaki Nath Chowdhury and Ayan Kumar Bhunia and Aneeshan Sain and
Subhadeep Koley and Tao Xiang and Yi-Zhe Song
- Abstract要約: スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
- 参考スコア(独自算出の注目度): 127.67444974452411
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sketches are highly expressive, inherently capturing subjective and
fine-grained visual cues. The exploration of such innate properties of human
sketches has, however, been limited to that of image retrieval. In this paper,
for the first time, we cultivate the expressiveness of sketches but for the
fundamental vision task of object detection. The end result is a sketch-enabled
object detection framework that detects based on what \textit{you} sketch --
\textit{that} ``zebra'' (e.g., one that is eating the grass) in a herd of
zebras (instance-aware detection), and only the \textit{part} (e.g., ``head" of
a ``zebra") that you desire (part-aware detection). We further dictate that our
model works without (i) knowing which category to expect at testing (zero-shot)
and (ii) not requiring additional bounding boxes (as per fully supervised) and
class labels (as per weakly supervised). Instead of devising a model from the
ground up, we show an intuitive synergy between foundation models (e.g., CLIP)
and existing sketch models build for sketch-based image retrieval (SBIR), which
can already elegantly solve the task -- CLIP to provide model generalisation,
and SBIR to bridge the (sketch$\rightarrow$photo) gap. In particular, we first
perform independent prompting on both sketch and photo branches of an SBIR
model to build highly generalisable sketch and photo encoders on the back of
the generalisation ability of CLIP. We then devise a training paradigm to adapt
the learned encoders for object detection, such that the region embeddings of
detected boxes are aligned with the sketch and photo embeddings from SBIR.
Evaluating our framework on standard object detection datasets like PASCAL-VOC
and MS-COCO outperforms both supervised (SOD) and weakly-supervised object
detectors (WSOD) on zero-shot setups. Project Page:
\url{https://pinakinathc.github.io/sketch-detect}
- Abstract(参考訳): スケッチは非常に表現力が高く、本質的に主観的および細かな視覚的手がかりを捉えている。
しかし、このような人間のスケッチの原生的性質の探索は、画像検索のそれに限定されている。
本稿では,スケッチの表現性を初めて育成するが,オブジェクト検出の基本的なビジョンタスクについて述べる。
最終的な結果はスケッチ可能なオブジェクト検出フレームワークで、zebras(instance-aware detection)の群れ内の \textit{you} sketch -\textit{that} ``zebra''(例えば、草を食べているもの)と、あなたが望む \textit{part}(例えば ``zebra' の ``head" )のみに基づいて検出される。
モデルが機能しないことを 決定づけます
(i)テストでどのカテゴリを期待するか(ゼロショット)
(ii)追加のバウンディングボックス(フル教師付き)とクラスラベル(弱教師付き)を必要としない。
基礎モデル(例えばCLIP)と既存のスケッチモデルとの間には直感的な相乗効果があり、スケッチベースの画像検索(SBIR)はタスクを優雅に解決できる -- CLIPはモデルの一般化を提供し、SBIRは(sketch$\rightarrow$photo)ギャップを埋める。
特に,sbirモデルのスケッチ枝とフォト枝の両方に独立したプロンプトを行い,クリップの一般化能力の裏面に高度に一般化可能なスケッチとフォトエンコーダを構築する。
次に、検出されたボックスの領域埋め込みがSBIRのスケッチや写真埋め込みと一致するように、学習したエンコーダをオブジェクト検出に適用する訓練パラダイムを考案する。
pascal-voc や ms-coco のような標準オブジェクト検出データセットのフレームワークの評価は、ゼロショット設定での supervised (sod) と weakly supervised object detector (wsod) の両方よりも優れている。
プロジェクトページ: \url{https://pinakinathc.github.io/sketch-detect}
関連論文リスト
- Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Open Vocabulary Semantic Scene Sketch Understanding [5.638866331696071]
フリーハンドシーンスケッチの機械的理解における未探索だが基本的な視覚問題について検討する。
本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。
提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント上回り,FS-COCOスケッチデータセットの精度が85.5%に達した。
論文 参考訳(メタデータ) (2023-12-18T19:02:07Z) - Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings [99.9788496281408]
本研究では,スケッチを弱いラベルとして使用して,画像中の有能な物体を検出する方法について検討する。
これを実現するために,与えられた視覚写真に対応する逐次スケッチ座標を生成することを目的としたフォト・ツー・スケッチ生成モデルを提案する。
テストは、私たちの仮説を証明し、スケッチベースの唾液度検出モデルが、最先端技術と比較して、競争力のあるパフォーマンスを提供する方法を明確にします。
論文 参考訳(メタデータ) (2023-03-20T23:46:46Z) - Query-guided Attention in Vision Transformers for Localizing Objects
Using a Single Sketch [17.63475613154152]
オブジェクトの粗雑な手書きスケッチが与えられた場合、目標は、ターゲット画像上の同じオブジェクトのすべてのインスタンスをローカライズすることである。
この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。
本稿では,画像エンコーダの各ブロックにクロスアテンションを用いて,問合せ条件付き画像特徴を学習するスケッチ誘導型視覚トランスフォーマエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-15T17:26:17Z) - Abstracting Sketches through Simple Primitives [53.04827416243121]
人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。
本稿では,プリミティブをベースとしたスケッチ抽象化タスクを提案する。
我々のPrimitive-Matching Network(PMN)は、スケッチの解釈可能な抽象化を自己管理的に学習する。
論文 参考訳(メタデータ) (2022-07-27T14:32:39Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Localizing Infinity-shaped fishes: Sketch-guided object localization in
the wild [5.964436882344729]
本研究はスケッチ誘導オブジェクトローカライゼーションの問題について考察する。
人間のスケッチは、自然画像におけるオブジェクトのローカライゼーションを実行するクエリとして使用される。
ハードな分類を避けたスケッチ条件のDETRアーキテクチャを提案する。
実験により,我々のモデルとその変種が過去の最先端結果よりも著しく進歩していることが実証された。
論文 参考訳(メタデータ) (2021-09-24T10:39:43Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。