論文の概要: An Efficient Framework for Zero-Shot Sketch-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2102.04016v1
- Date: Mon, 8 Feb 2021 06:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:40:21.782115
- Title: An Efficient Framework for Zero-Shot Sketch-Based Image Retrieval
- Title(参考訳): ゼロショットスケッチに基づく画像検索のための効率的なフレームワーク
- Authors: Osman Tursun, Simon Denman, Sridha Sridharan, Ethan Goan and Clinton
Fookes
- Abstract要約: ゼロショットのSketchベースのImage Retrieval (ZS-SBIR)は、現実のアプリケーションであるため、コンピュータビジョンコミュニティの注目を集めている。
ZS-SBIRは、コンテンツベースの画像検索(CBIR)、ゼロショット学習、ドメイン適応など、複数のコンピュータビジョン問題の主な課題を継承する。
- 参考スコア(独自算出の注目度): 36.254157442709264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Zero-shot Sketch-based Image Retrieval (ZS-SBIR) has attracted the
attention of the computer vision community due to it's real-world applications,
and the more realistic and challenging setting than found in SBIR. ZS-SBIR
inherits the main challenges of multiple computer vision problems including
content-based Image Retrieval (CBIR), zero-shot learning and domain adaptation.
The majority of previous studies using deep neural networks have achieved
improved results through either projecting sketch and images into a common
low-dimensional space or transferring knowledge from seen to unseen classes.
However, those approaches are trained with complex frameworks composed of
multiple deep convolutional neural networks (CNNs) and are dependent on
category-level word labels. This increases the requirements on training
resources and datasets. In comparison, we propose a simple and efficient
framework that does not require high computational training resources, and can
be trained on datasets without semantic categorical labels. Furthermore, at
training and inference stages our method only uses a single CNN. In this work,
a pre-trained ImageNet CNN (e.g., ResNet50) is fine-tuned with three proposed
learning objects: domain-aware quadruplet loss, semantic classification loss,
and semantic knowledge preservation loss. The domain-aware quadruplet and
semantic classification losses are introduced to learn discriminative, semantic
and domain invariant features through considering ZS-SBIR as object detection
and verification problem. ...
- Abstract(参考訳): 近年、Zero-shot Sketch-based Image Retrieval(ZS-SBIR)は、実世界のアプリケーション、SBIRで見られるよりも現実的で挑戦的な設定のために、コンピュータビジョンコミュニティの注目を集めています。
ZS-SBIRは、コンテンツベースの画像検索(CBIR)、ゼロショット学習、ドメイン適応など、複数のコンピュータビジョン問題の主な課題を継承する。
ディープニューラルネットワークを用いたこれまでの研究の大部分は、スケッチとイメージを共通の低次元空間に投影するか、見慣れないクラスに知識を移すことによって、よりよい結果を得た。
しかし、これらのアプローチは複数の深層畳み込みニューラルネットワーク(cnns)で構成される複雑なフレームワークで訓練され、カテゴリレベルの単語ラベルに依存する。
これにより、トレーニングリソースとデータセットの要件が増加する。
比較として,高い計算訓練資源を必要とせず,セマンティックな分類ラベルを使わずにデータセットでトレーニングできる,シンプルで効率的なフレームワークを提案する。
さらに、トレーニングと推論の段階では、メソッドは単一のCNNのみを使用します。
本研究では、事前訓練されたImageNet CNN(例:ResNet50)を3つの学習オブジェクト(ドメイン認識四重項損失、セマンティック分類損失、セマンティック知識保存損失)で微調整する。
ZS-SBIRをオブジェクト検出・検証問題として考慮し, 識別的, 意味的, ドメイン不変の特徴を学習するために, ドメイン対応四脚と意味分類の損失を導入した。
...
関連論文リスト
- Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision [4.600687314645625]
ImageNetのような大規模なデータセットで事前トレーニングされたアーキテクチャバックボーンは、一般的に機能抽出器として使用される。
本研究は、一貫したトレーニング設定下で、複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。
本研究は,異なるバックボーンの性能トレードオフと有効性について,実用的な知見を提供する。
論文 参考訳(メタデータ) (2024-06-09T02:01:25Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - A Domain Decomposition-Based CNN-DNN Architecture for Model Parallel Training Applied to Image Recognition Problems [0.0]
モデル並列トレーニング戦略を自然にサポートする新しいCNN-DNNアーキテクチャを提案する。
提案手法は,グローバルモデルと比較して,必要なトレーニング時間を著しく短縮することができる。
その結果,提案手法は,基礎となる分類問題の精度向上にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-13T18:06:59Z) - Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - Agricultural Plantation Classification using Transfer Learning Approach
based on CNN [0.0]
深層学習により高スペクトル画像認識の効率は著しく向上した。
CNNとMulti-Layer Perceptron(MLP)は画像の分類に優れたプロセスであることが示されている。
本稿では,移動学習の手法を用いて,学習時間を短縮し,ラベル付き大規模データセットへの依存を減らすことを提案する。
論文 参考訳(メタデータ) (2022-06-19T14:43:31Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。