論文の概要: An Efficient Framework for Zero-Shot Sketch-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2102.04016v1
- Date: Mon, 8 Feb 2021 06:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:40:21.782115
- Title: An Efficient Framework for Zero-Shot Sketch-Based Image Retrieval
- Title(参考訳): ゼロショットスケッチに基づく画像検索のための効率的なフレームワーク
- Authors: Osman Tursun, Simon Denman, Sridha Sridharan, Ethan Goan and Clinton
Fookes
- Abstract要約: ゼロショットのSketchベースのImage Retrieval (ZS-SBIR)は、現実のアプリケーションであるため、コンピュータビジョンコミュニティの注目を集めている。
ZS-SBIRは、コンテンツベースの画像検索(CBIR)、ゼロショット学習、ドメイン適応など、複数のコンピュータビジョン問題の主な課題を継承する。
- 参考スコア(独自算出の注目度): 36.254157442709264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Zero-shot Sketch-based Image Retrieval (ZS-SBIR) has attracted the
attention of the computer vision community due to it's real-world applications,
and the more realistic and challenging setting than found in SBIR. ZS-SBIR
inherits the main challenges of multiple computer vision problems including
content-based Image Retrieval (CBIR), zero-shot learning and domain adaptation.
The majority of previous studies using deep neural networks have achieved
improved results through either projecting sketch and images into a common
low-dimensional space or transferring knowledge from seen to unseen classes.
However, those approaches are trained with complex frameworks composed of
multiple deep convolutional neural networks (CNNs) and are dependent on
category-level word labels. This increases the requirements on training
resources and datasets. In comparison, we propose a simple and efficient
framework that does not require high computational training resources, and can
be trained on datasets without semantic categorical labels. Furthermore, at
training and inference stages our method only uses a single CNN. In this work,
a pre-trained ImageNet CNN (e.g., ResNet50) is fine-tuned with three proposed
learning objects: domain-aware quadruplet loss, semantic classification loss,
and semantic knowledge preservation loss. The domain-aware quadruplet and
semantic classification losses are introduced to learn discriminative, semantic
and domain invariant features through considering ZS-SBIR as object detection
and verification problem. ...
- Abstract(参考訳): 近年、Zero-shot Sketch-based Image Retrieval(ZS-SBIR)は、実世界のアプリケーション、SBIRで見られるよりも現実的で挑戦的な設定のために、コンピュータビジョンコミュニティの注目を集めています。
ZS-SBIRは、コンテンツベースの画像検索(CBIR)、ゼロショット学習、ドメイン適応など、複数のコンピュータビジョン問題の主な課題を継承する。
ディープニューラルネットワークを用いたこれまでの研究の大部分は、スケッチとイメージを共通の低次元空間に投影するか、見慣れないクラスに知識を移すことによって、よりよい結果を得た。
しかし、これらのアプローチは複数の深層畳み込みニューラルネットワーク(cnns)で構成される複雑なフレームワークで訓練され、カテゴリレベルの単語ラベルに依存する。
これにより、トレーニングリソースとデータセットの要件が増加する。
比較として,高い計算訓練資源を必要とせず,セマンティックな分類ラベルを使わずにデータセットでトレーニングできる,シンプルで効率的なフレームワークを提案する。
さらに、トレーニングと推論の段階では、メソッドは単一のCNNのみを使用します。
本研究では、事前訓練されたImageNet CNN(例:ResNet50)を3つの学習オブジェクト(ドメイン認識四重項損失、セマンティック分類損失、セマンティック知識保存損失)で微調整する。
ZS-SBIRをオブジェクト検出・検証問題として考慮し, 識別的, 意味的, ドメイン不変の特徴を学習するために, ドメイン対応四脚と意味分類の損失を導入した。
...
関連論文リスト
- Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - Agricultural Plantation Classification using Transfer Learning Approach
based on CNN [0.0]
深層学習により高スペクトル画像認識の効率は著しく向上した。
CNNとMulti-Layer Perceptron(MLP)は画像の分類に優れたプロセスであることが示されている。
本稿では,移動学習の手法を用いて,学習時間を短縮し,ラベル付き大規模データセットへの依存を減らすことを提案する。
論文 参考訳(メタデータ) (2022-06-19T14:43:31Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Background Invariant Classification on Infrared Imagery by Data
Efficient Training and Reducing Bias in CNNs [1.2891210250935146]
畳み込みニューラルネットワークは 画像中の物体を 正確に分類できます
ネットワークの注意が常にシーンのセマンティックな重要な領域にあるとは限らないことはよく知られている。
我々は、赤外線画像とRGBデータの両方におけるCNNのバイアスを低減するために、textitsplit trainingと呼ばれる2段階のトレーニング手順を提案する。
論文 参考訳(メタデータ) (2022-01-22T23:29:42Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Contextually Guided Convolutional Neural Networks for Learning Most
Transferable Representations [1.160208922584163]
新たなタスクに転送可能な汎用表現を開発するための効率的なアルゴリズムをトレーニングなしで提案する。
コンテキストガイド付きCNN(CG-CNN)は、データセット内のランダムな画像位置で選択された近隣画像パッチのグループに基づいて訓練される。
自然画像への適用では、CG-CNNの機能は、最初のCNNレイヤーの同等の転送可能な機能と同じ、高い場合でも、転送ユーティリティと分類精度を示しています。
論文 参考訳(メタデータ) (2021-03-02T08:41:12Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - CrossTransformers: spatially-aware few-shot transfer [92.33252608837947]
非常に少ないデータを持つ新しいタスクを考えると、現代の視覚システムは驚くほど急速に低下する。
現代の視覚システムを支えるニューラルネットワーク表現が、どのようにして監督の崩壊にさらされているかを示す。
そこで我々は,伝達を良くする汎用的な機能を促進するために,自己指導型学習を提案する。
論文 参考訳(メタデータ) (2020-07-22T15:37:08Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。