論文の概要: Localizing Infinity-shaped fishes: Sketch-guided object localization in
the wild
- arxiv url: http://arxiv.org/abs/2109.11874v1
- Date: Fri, 24 Sep 2021 10:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:04:30.496213
- Title: Localizing Infinity-shaped fishes: Sketch-guided object localization in
the wild
- Title(参考訳): インフィニティ型魚類の局在:野生におけるスケッチ誘導物体の局在
- Authors: Pau Riba, Sounak Dey, Ali Furkan Biten and Josep Llados
- Abstract要約: 本研究はスケッチ誘導オブジェクトローカライゼーションの問題について考察する。
人間のスケッチは、自然画像におけるオブジェクトのローカライゼーションを実行するクエリとして使用される。
ハードな分類を避けたスケッチ条件のDETRアーキテクチャを提案する。
実験により,我々のモデルとその変種が過去の最先端結果よりも著しく進歩していることが実証された。
- 参考スコア(独自算出の注目度): 5.964436882344729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work investigates the problem of sketch-guided object localization
(SGOL), where human sketches are used as queries to conduct the object
localization in natural images. In this cross-modal setting, we first
contribute with a tough-to-beat baseline that without any specific SGOL
training is able to outperform the previous works on a fixed set of classes.
The baseline is useful to analyze the performance of SGOL approaches based on
available simple yet powerful methods. We advance prior arts by proposing a
sketch-conditioned DETR (DEtection TRansformer) architecture which avoids a
hard classification and alleviates the domain gap between sketches and images
to localize object instances. Although the main goal of SGOL is focused on
object detection, we explored its natural extension to sketch-guided instance
segmentation. This novel task allows to move towards identifying the objects at
pixel level, which is of key importance in several applications. We
experimentally demonstrate that our model and its variants significantly
advance over previous state-of-the-art results. All training and testing code
of our model will be released to facilitate future
research{{https://github.com/priba/sgol_wild}}.
- Abstract(参考訳): 本研究は,人間のスケッチを自然画像におけるオブジェクトのローカライゼーションを行うクエリとして用いる,スケッチ誘導オブジェクトローカライゼーション(sgol)の問題を検討する。
このクロスモーダルな設定では、まず、特定のSGOLトレーニングがなければ、固定されたクラスの前の作業よりもパフォーマンスが良くなるという、強靭なベースラインにコントリビュートする。
ベースラインは、利用可能なシンプルだが強力な手法に基づいて、SGOLアプローチのパフォーマンスを分析するのに有用である。
我々は,スケッチ条件付きDETR(Detection TRansformer)アーキテクチャを提案し,ハードな分類を避け,スケッチとイメージ間の領域ギャップを軽減し,オブジェクトインスタンスのローカライズを行う。
SGOLの主な目的はオブジェクト検出であるが、スケッチ誘導インスタンスセグメンテーションへの自然な拡張について検討した。
この新しいタスクは、いくつかのアプリケーションにおいて重要な、ピクセルレベルでのオブジェクトの識別に向けた移動を可能にする。
実験により,我々のモデルとその変種が過去の最先端結果よりも著しく進歩していることが実証された。
私たちのモデルのすべてのトレーニングとテストコードは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Generative Location Modeling for Spatially Aware Object Insertion [35.62317512925592]
生成モデルは、オブジェクト挿入を含む画像編集タスクの強力なツールになっている。
本稿では,現実的な物体の位置を識別するための位置モデルの構築に焦点をあてる。
具体的には,背景画像と所望のオブジェクトクラスに条件付き境界ボックス座標を生成する自己回帰モデルを訓練する。
この定式化により、スパース配置アノテーションを効果的に処理し、直接選好最適化を行うことで、不明瞭な位置を選好データセットに組み込むことができる。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - What Can Human Sketches Do for Object Detection? [127.67444974452411]
スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
論文 参考訳(メタデータ) (2023-03-27T12:33:23Z) - Query-guided Attention in Vision Transformers for Localizing Objects
Using a Single Sketch [17.63475613154152]
オブジェクトの粗雑な手書きスケッチが与えられた場合、目標は、ターゲット画像上の同じオブジェクトのすべてのインスタンスをローカライズすることである。
この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。
本稿では,画像エンコーダの各ブロックにクロスアテンションを用いて,問合せ条件付き画像特徴を学習するスケッチ誘導型視覚トランスフォーマエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-15T17:26:17Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Sketch-Guided Object Localization in Natural Images [16.982683600384277]
スケッチクエリにより,物体のすべてのインスタンスを自然な画像にローカライズする新たな問題(トレーニング中は見えなかったり見えなかったり)を導入する。
本稿では,スケッチクエリに関連するオブジェクト提案を生成するために,地域提案ネットワーク(RPN)をガイドする新しいクロスモーダルアテンションスキームを提案する。
我々の手法は1つのスケッチクエリで有効である。
論文 参考訳(メタデータ) (2020-08-14T19:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。