論文の概要: Sketch-Guided Object Localization in Natural Images
- arxiv url: http://arxiv.org/abs/2008.06551v1
- Date: Fri, 14 Aug 2020 19:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:21:45.108782
- Title: Sketch-Guided Object Localization in Natural Images
- Title(参考訳): 自然画像におけるスケッチ誘導物体定位
- Authors: Aditay Tripathi, Rajath R Dani, Anand Mishra, Anirban Chakraborty
- Abstract要約: スケッチクエリにより,物体のすべてのインスタンスを自然な画像にローカライズする新たな問題(トレーニング中は見えなかったり見えなかったり)を導入する。
本稿では,スケッチクエリに関連するオブジェクト提案を生成するために,地域提案ネットワーク(RPN)をガイドする新しいクロスモーダルアテンションスキームを提案する。
我々の手法は1つのスケッチクエリで有効である。
- 参考スコア(独自算出の注目度): 16.982683600384277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the novel problem of localizing all the instances of an object
(seen or unseen during training) in a natural image via sketch query. We refer
to this problem as sketch-guided object localization. This problem is
distinctively different from the traditional sketch-based image retrieval task
where the gallery set often contains images with only one object. The
sketch-guided object localization proves to be more challenging when we
consider the following: (i) the sketches used as queries are abstract
representations with little information on the shape and salient attributes of
the object, (ii) the sketches have significant variability as they are
hand-drawn by a diverse set of untrained human subjects, and (iii) there exists
a domain gap between sketch queries and target natural images as these are
sampled from very different data distributions. To address the problem of
sketch-guided object localization, we propose a novel cross-modal attention
scheme that guides the region proposal network (RPN) to generate object
proposals relevant to the sketch query. These object proposals are later scored
against the query to obtain final localization. Our method is effective with as
little as a single sketch query. Moreover, it also generalizes well to object
categories not seen during training and is effective in localizing multiple
object instances present in the image. Furthermore, we extend our framework to
a multi-query setting using novel feature fusion and attention fusion
strategies introduced in this paper. The localization performance is evaluated
on publicly available object detection benchmarks, viz. MS-COCO and PASCAL-VOC,
with sketch queries obtained from `Quick, Draw!'. The proposed method
significantly outperforms related baselines on both single-query and
multi-query localization tasks.
- Abstract(参考訳): スケッチクエリによって,オブジェクトのすべてのインスタンス(トレーニング中はseenまたはunseen)を自然なイメージにローカライズするという,新たな問題を導入する。
この問題をsketch-guided object localizationと呼ぶ。
この問題は、ギャラリーセットが1つのオブジェクトのみを含むことが多い従来のスケッチベースの画像検索タスクとは異なる。
スケッチ誘導オブジェクトのローカライゼーションは、次のように考えると、より難しいことが証明されます。
(i)クエリーとして使用するスケッチは、オブジェクトの形状や健全な属性に関する情報がほとんどない抽象表現である。
(二)筆跡は多種多様な非訓練被写体によって手描きされているため、大きな変動がある。
(iii)非常に異なるデータ分布からサンプリングされたスケッチクエリと対象自然画像の間にはドメインギャップが存在する。
スケッチ誘導型オブジェクトローカライゼーションの課題に対処するため、スケッチクエリに関連するオブジェクトプロポーザルを生成するために、地域提案ネットワーク(RPN)をガイドする新しいクロスモーダルアテンションスキームを提案する。
これらのオブジェクト提案は、最終的なローカライゼーションを得るためにクエリに対してスコア付けされる。
我々の手法は1つのスケッチクエリで有効である。
さらに、トレーニング中に見えないオブジェクトカテゴリにうまく一般化し、画像に存在する複数のオブジェクトインスタンスをローカライズするのに有効である。
さらに,本論文で紹介した新しい特徴融合戦略と注意融合戦略を用いて,マルチクエリ設定に拡張する。
ローカライゼーション性能は、公開されているオブジェクト検出ベンチマーク(viz)で評価される。
ms-cocoとpascal-voc、'quick, draw!'から得られたスケッチクエリ。
提案手法は,シングルクエリおよびマルチクエリのローカライズタスクにおいて,関連するベースラインを著しく上回っている。
関連論文リスト
- Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions [6.8273484064357515]
語彙が限られている非ネイティブ話者は、それを視覚化できるにもかかわらず、特定のオブジェクトを名付けるのに苦労することが多い。
そこで本研究では,手描きスケッチを用いて自然シーン画像中の関連オブジェクトをローカライズする,事前学習型マルチモーダルトランスフォーマーベースラインSTNET(Sketch+Text Network)を提案する。
提案手法は,テキストのみの,スケッチのみの,複合的なクエリモダリティに対する,最先端の検索手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-12T14:22:59Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - Query-guided Attention in Vision Transformers for Localizing Objects
Using a Single Sketch [17.63475613154152]
オブジェクトの粗雑な手書きスケッチが与えられた場合、目標は、ターゲット画像上の同じオブジェクトのすべてのインスタンスをローカライズすることである。
この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。
本稿では,画像エンコーダの各ブロックにクロスアテンションを用いて,問合せ条件付き画像特徴を学習するスケッチ誘導型視覚トランスフォーマエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-15T17:26:17Z) - Multimodal Query-guided Object Localization [5.424592317916519]
本稿では,複数モーダルなクエリ誘導オブジェクトローカライズ手法を提案する。
特に、手書きのスケッチとオブジェクトの記述という、2つのモダリティからのクエリを使用します。
提案手法は,提案するエリア提案ネットワークを誘導し,オブジェクト提案を生成する。
論文 参考訳(メタデータ) (2022-12-01T18:35:03Z) - Localizing Infinity-shaped fishes: Sketch-guided object localization in
the wild [5.964436882344729]
本研究はスケッチ誘導オブジェクトローカライゼーションの問題について考察する。
人間のスケッチは、自然画像におけるオブジェクトのローカライゼーションを実行するクエリとして使用される。
ハードな分類を避けたスケッチ条件のDETRアーキテクチャを提案する。
実験により,我々のモデルとその変種が過去の最先端結果よりも著しく進歩していることが実証された。
論文 参考訳(メタデータ) (2021-09-24T10:39:43Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Prototypical Region Proposal Networks for Few-Shot Localization and
Classification [1.5100087942838936]
分割と分類をエンドツーエンドの分類モデルであるPRoPnetに統一するフレームワークを開発する。
本手法は,複数のオブジェクトクラスを含む自然シーンを用いた画像データセットの精度向上を実証した。
論文 参考訳(メタデータ) (2021-04-08T04:03:30Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。