論文の概要: Query-guided Attention in Vision Transformers for Localizing Objects
Using a Single Sketch
- arxiv url: http://arxiv.org/abs/2303.08784v1
- Date: Wed, 15 Mar 2023 17:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 12:55:33.735626
- Title: Query-guided Attention in Vision Transformers for Localizing Objects
Using a Single Sketch
- Title(参考訳): 単一スケッチを用いた物体位置決め用視覚変換器におけるクエリ誘導注意
- Authors: Aditay Tripathi, Anand Mishra, Anirban Chakraborty
- Abstract要約: オブジェクトの粗雑な手書きスケッチが与えられた場合、目標は、ターゲット画像上の同じオブジェクトのすべてのインスタンスをローカライズすることである。
この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。
本稿では,画像エンコーダの各ブロックにクロスアテンションを用いて,問合せ条件付き画像特徴を学習するスケッチ誘導型視覚トランスフォーマエンコーダを提案する。
- 参考スコア(独自算出の注目度): 17.63475613154152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the problem of sketch-based object localization
on natural images, where given a crude hand-drawn sketch of an object, the goal
is to localize all the instances of the same object on the target image. This
problem proves difficult due to the abstract nature of hand-drawn sketches,
variations in the style and quality of sketches, and the large domain gap
existing between the sketches and the natural images. To mitigate these
challenges, existing works proposed attention-based frameworks to incorporate
query information into the image features. However, in these works, the query
features are incorporated after the image features have already been
independently learned, leading to inadequate alignment. In contrast, we propose
a sketch-guided vision transformer encoder that uses cross-attention after each
block of the transformer-based image encoder to learn query-conditioned image
features leading to stronger alignment with the query sketch. Further, at the
output of the decoder, the object and the sketch features are refined to bring
the representation of relevant objects closer to the sketch query and thereby
improve the localization. The proposed model also generalizes to the object
categories not seen during training, as the target image features learned by
our method are query-aware. Our localization framework can also utilize
multiple sketch queries via a trainable novel sketch fusion strategy. The model
is evaluated on the images from the public object detection benchmark, namely
MS-COCO, using the sketch queries from QuickDraw! and Sketchy datasets.
Compared with existing localization methods, the proposed approach gives a
$6.6\%$ and $8.0\%$ improvement in mAP for seen objects using sketch queries
from QuickDraw! and Sketchy datasets, respectively, and a $12.2\%$ improvement
in AP@50 for large objects that are `unseen' during training.
- Abstract(参考訳): 本研究では,対象画像上の同一オブジェクトのすべてのインスタンスをローカライズすることを目的として,対象オブジェクトの粗手描画を行った場合の,自然画像上のスケッチベースオブジェクトローカライズの問題について検討する。
この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。
これらの課題を軽減するため、既存の作品では、画像機能にクエリ情報を組み込むための注意に基づくフレームワークが提案されている。
しかし、これらの作業では、画像機能がすでに独立して学習された後にクエリ機能が組み込まれ、アライメントが不十分になる。
対照的に,画像エンコーダの各ブロックの後にクロスアテンションを用いてクエリ条件付き画像の特徴を学習し,クエリ・スケッチとの整合性が向上するスケッチガイド型視覚トランスコーダを提案する。
さらに、デコーダの出力時に、オブジェクトとスケッチの特徴を洗練して、関連するオブジェクトの表現をスケッチクエリに近づけ、ローカライゼーションを改善する。
提案手法は,本手法で学習した対象画像の特徴を問合せに認識するため,訓練中に見えない対象カテゴリにも一般化する。
我々のローカライゼーションフレームワークは、トレーニング可能な新規スケッチ融合戦略により、複数のスケッチクエリを利用することもできる。
モデルは、QuickDraw!とSketchyデータセットのスケッチクエリを使用して、公開オブジェクト検出ベンチマーク、すなわちMS-COCOの画像に基づいて評価される。
既存のローカライズ手法と比較して、提案されたアプローチでは、quickdraw!とsketchyデータセットからのスケッチクエリを使用して、視認されたオブジェクトのマップがそれぞれ6.6\%$と8.0\%$改善され、トレーニング中に‘unseen’となる大きなオブジェクトに対して12.2\%$改善される。
関連論文リスト
- What Can Human Sketches Do for Object Detection? [127.67444974452411]
スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
論文 参考訳(メタデータ) (2023-03-27T12:33:23Z) - Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings [99.9788496281408]
本研究では,スケッチを弱いラベルとして使用して,画像中の有能な物体を検出する方法について検討する。
これを実現するために,与えられた視覚写真に対応する逐次スケッチ座標を生成することを目的としたフォト・ツー・スケッチ生成モデルを提案する。
テストは、私たちの仮説を証明し、スケッチベースの唾液度検出モデルが、最先端技術と比較して、競争力のあるパフォーマンスを提供する方法を明確にします。
論文 参考訳(メタデータ) (2023-03-20T23:46:46Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Localizing Infinity-shaped fishes: Sketch-guided object localization in
the wild [5.964436882344729]
本研究はスケッチ誘導オブジェクトローカライゼーションの問題について考察する。
人間のスケッチは、自然画像におけるオブジェクトのローカライゼーションを実行するクエリとして使用される。
ハードな分類を避けたスケッチ条件のDETRアーキテクチャを提案する。
実験により,我々のモデルとその変種が過去の最先端結果よりも著しく進歩していることが実証された。
論文 参考訳(メタデータ) (2021-09-24T10:39:43Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Sketch-Guided Object Localization in Natural Images [16.982683600384277]
スケッチクエリにより,物体のすべてのインスタンスを自然な画像にローカライズする新たな問題(トレーニング中は見えなかったり見えなかったり)を導入する。
本稿では,スケッチクエリに関連するオブジェクト提案を生成するために,地域提案ネットワーク(RPN)をガイドする新しいクロスモーダルアテンションスキームを提案する。
我々の手法は1つのスケッチクエリで有効である。
論文 参考訳(メタデータ) (2020-08-14T19:35:56Z) - Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image
Retrieval [147.24102408745247]
我々は、これまで見過ごされてきたスケッチのさらなる特性、すなわち、詳細レベルの階層性について研究する。
本稿では,スケッチ固有の階層を育成し,それを利用して,対応する階層レベルでのスケッチと写真とのマッチングを行う新しいネットワークを設計する。
論文 参考訳(メタデータ) (2020-07-29T20:50:25Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。