論文の概要、ライセンス

# (参考訳) 深層学習を用いた画像検索 [全文訳有]

Identical Image Retrieval using Deep Learning ( http://arxiv.org/abs/2205.04883v1 )

ライセンス: CC BY 4.0
Sayan Nath, Nikhil Nayak(参考訳) 近年,画像との相互作用が増加していることが判明した。 画像の類似性は、与えられた参照画像から類似した画像を取得することである。 ターゲットは、クエリとして検索された画像が類似した画像になるかどうかを調べることである。 私たちは最先端のモデルであるBigTransfer Modelを使用しています。 BigTransfer(BiT)は基本的にはResNetだが、ImageNetやImageNet-21kのような大きなデータセットで事前トレーニングされ、追加修正されている。 微調整済みの畳み込みニューラルネットワークモデルを用いて、K-Nearest Neighborモデルで重要な特徴を抽出し、最も近い隣人を学習する。 本モデルの応用は,低推論時間でテキストクエリによって実現し難い,類似した画像を見つけることである。 私たちはこのアプリケーションに基づいてモデルのベンチマークを分析します。

In recent years, we know that the interaction with images has increased. Image similarity involves fetching similar-looking images abiding by a given reference image. The target is to find out whether the image searched as a query can result in similar pictures. We are using the BigTransfer Model, which is a state-of-art model itself. BigTransfer(BiT) is essentially a ResNet but pre-trained on a larger dataset like ImageNet and ImageNet-21k with additional modifications. Using the fine-tuned pre-trained Convolution Neural Network Model, we extract the key features and train on the K-Nearest Neighbor model to obtain the nearest neighbor. The application of our model is to find similar images, which are hard to achieve through text queries within a low inference time. We analyse the benchmark of our model based on this application.
公開日: Tue, 10 May 2022 13:34:41 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 3 8 8 4 0 1 v 3 8 8 4 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
IDENTICAL IMAGE RETRIEVAL USING DEEP LEARNING ディープラーニングを用いた識別画像検索 0.43
Sayan Nath Nikhil Nayak サヤン・ナト Nikhil Naják 0.41
School of Computer Engineering Kalinga Institute of Industrial Technology 計算機工学専攻 カリンガ工業技術研究所 0.66
School of Computer Engineering Kalinga Institute of Industrial Technology 計算機工学専攻 カリンガ工業技術研究所 0.66
India 1906426@kiit.ac.in インド 1906426@kiit.ac.in 0.52
India 1928239@kiit.ac.in インド 1928239@kiit.ac.in 0.52
ABSTRACT In recent years, we know that the interaction with images has increased. ABSTRACT 近年,画像との相互作用が増加していることが判明した。 0.60
Image similarity involves fetching similar-looking images abiding by a given reference image. 画像の類似性は、与えられた参照画像から類似した画像を取得することである。 0.48
The target is to find out whether the image searched as a query can result in similar pictures. ターゲットは、クエリとして検索された画像が類似した画像になるかどうかを調べることである。 0.65
We are using the BigTransfer Model, which is a state-of-art model itself. 私たちは最先端のモデルであるBigTransfer Modelを使用しています。 0.76
BigTransfer(BiT) is essentially a ResNet but pre-trained on a larger dataset like ImageNet and ImageNet-21k with additional modifications. BigTransfer(BiT)は基本的にはResNetだが、ImageNetやImageNet-21kのような大きなデータセットで事前トレーニングされ、追加修正されている。 0.57
Using the fine-tuned pre-trained Convolution Neural Network Model, we extract the key features and train on the KNearest Neighbor model to obtain the nearest neighbor. 微調整済みの畳み込みニューラルネットワークモデルを用いて、KNearest Neighborモデルで重要な特徴を抽出し、最も近い隣人を訓練する。 0.70
The application of our model is to find similar images, which are hard to achieve through text queries within a low inference time. 本モデルの応用は,低推論時間でテキストクエリによって実現し難い,類似した画像を見つけることである。 0.83
We analyse the benchmark of our model based on this application. 私たちはこのアプリケーションに基づいてモデルのベンチマークを分析します。 0.67
Keywords Image Similarity Search · Computer Vision · Deep Learning · Transfer Learning · BigTransfer キーワード画像類似検索・コンピュータビジョン・ディープラーニング・転送学習・BigTransfer 0.76
1 Introduction How can we compute the similarity of one image to another? 1 はじめに ある画像と他の画像の類似性を計算するには? 0.57
This is a question that has been asked for hundreds of years, and it is probably the most fundamental question in image processing. これは何百年も前から聞かれてきた質問であり、おそらく画像処理における最も基本的な質問である。 0.81
Several customer-facing applications leverage images to search and find products and they usually complement that of a text-based search in most use cases. いくつかの顧客向けアプリケーションは画像を利用して商品を検索し、たいていの場合、テキストベースの検索を補完する。 0.77
In this paper, we will describe an approach to compute image similarity using deep neural networks. 本稿では,ディープニューラルネットワークを用いた画像類似性計算手法について述べる。 0.80
Our method is based on a state-of-the-art model known as the BigTransfer Model, which learns to predict the similarity of two images. 提案手法は,2つの画像の類似性を予測するために,bigtransferモデルとして知られる最先端モデルに基づいている。 0.76
Fig 1. Shows examples of Image samples from the tf_flower [4] dataset on which our BigTransfer(BiT) [1] model is trained. 図1。 BigTransfer(BiT) [1]モデルがトレーニングされているtf_flower [4]データセットの画像サンプルの例を示す。 0.60
Our system has the potential to be used with business-critical applications. 私たちのシステムは、ビジネスクリティカルなアプリケーションで使われる可能性がある。 0.63
With the visual exploration trend rising in the retail sector and the availability of quintillion Gigabytes of data at our disposal our image similarity model is bound to become more and more accurate. 小売業界での視覚的な探究のトレンドが高まり、クエンティリオンギガバイトのデータを自由に利用できるようになり、画像の類似性モデルはますます正確になるでしょう。 0.66
We optimized our model for two specific objectives: search accuracy and query duration. 我々は,検索精度とクエリ時間という2つの目的に最適化した。 0.64
We achieved high accuracy by examining a few other candidates. 他の候補を調べることで、高い精度を達成しました。 0.58
We achieved a query time of under a second. 私たちは1秒未満のクエリ時間を達成しました。 0.57
Our system is highly accurate and fast. 私たちのシステムは極めて正確で高速です。 0.71
Our system is fast because we used a few other models such as hand-crafted features, autoencoders [11], CNN’s [8] and we only used the most recent pre-trained model. 私たちのシステムは、手作りの機能やオートエンコーダ[11]、cnn[8]といった他のモデルを使用しており、最新の事前トレーニングされたモデルのみを使用していたため、高速です。 0.68
This approach is highly robust and we believe it could be adopted by the industry. このアプローチは非常に堅牢であり、業界に採用できると考えています。 0.71
We chose a specific type of deep learning model because of the best performance we have observed and because of the clarity of the approach. 私たちは、観察した最高のパフォーマンスと、アプローチの明確さのために、特定のタイプのディープラーニングモデルを選択しました。 0.63
The state-of-the-art model we chose, based on the results, can leverage unsupervised learning. 私たちが選択した最先端のモデルは、結果に基づいて、教師なしの学習を活用できます。 0.48
With that type of model, it is easier to train data in massive quantities and to have a much better generalization. この種のモデルでは、大量のデータをトレーニングし、より優れた一般化を得ることがより簡単になる。 0.78
BigTransfer(BiT) [1] model uses a feed-forward layer over an unsupervised autoencoder [11] along with an attention model [24]. bigtransfer(bit) [1]モデルは、教師なしオートエンコーダ[11]上のフィードフォワード層と注意モデル[24]を使用する。 0.72
Our paper reports the first use of an attention model [24] for model-based image retrieval. 本稿では,モデルベース画像検索におけるアテンションモデル [24] の初使用について報告する。 0.70
Model-based image retrieval has been used for a long time in text-based searches for making more accurate queries. モデルに基づく画像検索は、より正確なクエリを作成するために、長い間テキストベースの検索で使われてきた。
訳抜け防止モード: モデルに基づく画像検索は長い間テキストで使われてきた より正確なクエリの検索。
0.84
But image-based search and image retrieval are very different scenarios. しかし、画像ベースの検索と画像検索は全く異なるシナリオだ。 0.72
Visual perception works differently than text-based search. 視覚はテキストベースの検索とは異なる。 0.70
So is image-based search and image retrieval. 画像ベースの検索と画像検索もそうだ。 0.62
Many other applications besides those highlighted in this paper can be benefitted from this work. この論文で強調されているもの以外の多くのアプリケーションは、この仕事の恩恵を受けることができる。 0.59
Our system is robust, highly accurate, and it can leverage unsupervised learning to produce large amounts of high-quality training data. 当社のシステムは堅牢で高精度であり,教師なし学習を活用して高品質なトレーニングデータを生成することができる。 0.70
This has enormous potential in several domains. これはいくつかの領域において大きな可能性がある。 0.41
英語(論文から抽出)日本語訳スコア
Identical Image Retrieval using Deep Learning 深層学習を用いた画像検索 0.79
Figure 1: TensorFlow Flower Dataset Sample 図1:TensorFlow Flowerデータセットサンプル 0.89
While image search engines like Google or Bing can find similar images with a text search, they are not very effective for a variety of reasons. GoogleやBingのような画像検索エンジンは、テキスト検索で似たような画像を見つけることができるが、様々な理由であまり効果がない。 0.77
The most obvious reason is that textual descriptions are limited to 20,000 characters and cannot express detailed semantics or the history of an object. 最も明白な理由は、テキスト記述が20,000文字に制限されており、詳細な意味論やオブジェクトの歴史を表現できないためである。 0.69
Secondly, people who don’t speak English cannot query image search engines via language translation. 第二に、英語を話せない人は、画像検索エンジンを言語翻訳で検索することはできない。 0.75
This brings about the second problem of a large and growing number of users from emerging markets who may not have access to Google and Bing. これは、googleやbingにアクセスできない新興市場からの大規模で増加傾向にあるユーザーにとって、第2の課題となる。 0.70
More importantly, they do not have a search query language of their own, yet still, they express their need to find images of stars and moons using such complex terms that require a series of complex symbols or gestures to communicate. さらに重要なことに、彼らは独自の検索クエリ言語を持っていないが、それでも、複雑なシンボルやジェスチャーのコミュニケーションを必要とするような複雑な用語を使って星や月の画像を見つける必要性を表現している。 0.74
Indeed, the search relevance of image search engines is heavily dependent on the existence of similar images available on the Internet. 実際、画像検索エンジンの検索関連性は、インターネット上で利用可能な類似画像の存在に大きく依存している。 0.83
This is an issue for all images that are not publically accessible for use, images captured at different times, or cameras with varying parameters. これは、一般に利用できない画像、異なる時刻に撮影された画像、あるいは様々なパラメータのカメラに対する問題である。 0.75
This is a very important point that we take into consideration when working on this project. これは、このプロジェクトに取り組むときに考慮すべき、非常に重要なポイントです。 0.78
On one side we have images that are not publicly accessible. 一方には、公開されていない画像があります。 0.60
The quality of the images will be varied and they will require careful content selection in the selection and processing of training and test data. 画像の品質は変化し、トレーニングとテストデータの選択と処理には慎重にコンテンツの選択が必要である。 0.80
On the other side, there is a lot of commercial information that "needs to be made publicly available for commercial use but is not yet. 他方、多くの商用情報があり、"商用利用には公開する必要があるが、まだ公開されていない"。 0.63
It can be difficult for a company to get permission to use their data, and another difficult process to get the images in the public domain. 企業が自分のデータを使用する許可を得るのが難しく、またパブリックドメインでイメージを取得するのが難しくなる場合もあります。 0.71
We also expect to expand and improve our existing models to make the selected publicly available images accessible for future work. また、既存のモデルを拡張し、改善して、選択した公開イメージを将来の作業で利用できるようにする予定です。 0.63
However, in this project, we are primarily focusing on developing our data collection pipeline to collect images that are currently out of the public domain and publish them on our existing system. しかし、このプロジェクトでは、主に、現在パブリックドメイン外にある画像を収集し、既存のシステムに公開するデータ収集パイプラインの開発に重点を置いています。 0.69
The project’s goal is to assist small and medium enterprises to more easily produce a high-quality dataset in the image and document domains. このプロジェクトの目的は、中小企業が画像やドキュメントの領域で高品質なデータセットをより容易に作成できるようにすることだ。 0.74
The paper has used all possible efforts to make our project as replicable and reproducible as possible. 論文では可能なすべての取り組みを使って、プロジェクトを可能な限り再現可能としています。 0.61
So far we have classified on flower dataset [4] and we have employed an unsupervised feature extraction technique for image preprocessing. これまで,フラワーデータセット [4] を分類し,教師なし特徴抽出手法を用いて画像前処理を行ってきた。 0.71
In the future, we will release the new datasets, which can be useful to anyone else for training and deploying their system for image retrieval. 将来、私たちは新しいデータセットをリリースします。このデータセットは、画像検索のためにシステムのトレーニングとデプロイに役立ちます。 0.67
Also in the future, we will explore a method to integrate our images of objects into deep search engines to improve the depth of the search results. また,将来的には,オブジェクトのイメージを深層検索エンジンに統合し,検索結果の深度を改善する手法も検討する。 0.74
This will add some search value, which is useful to some specific applications such as content discovery on an exhibition. これによって検索の価値が加わり、展示会でのコンテンツ発見のような特定のアプリケーションに役立つ。 0.80
We expect that this will drive towards some additional use cases in the future. これは将来、いくつかの追加のユースケースに進むと期待しています。 0.60
Research and industry have benefited enormously from advances in digital communication technology. 研究と産業はデジタルコミュニケーション技術の進歩から大きな恩恵を受けている。 0.77
This technology has enabled tremendous growth in markets such as mobile commerce, social networking, and large-scale community projects. この技術は、モバイルコマース、ソーシャルネットワーク、大規模コミュニティプロジェクトといった市場で大きな成長をもたらした。 0.70
In this project, we envisage that such image-based platforms, which focus on image-based search [5, 7], discovery, and mobile e-commerce, will present a massive opportunity for new business models. 本プロジェクトでは,画像ベースの検索 [5, 7],発見,およびモバイルeコマースに焦点を当てた画像ベースのプラットフォームが,新たなビジネスモデルに大きなチャンスをもたらすことを想定する。 0.85
2 Related Work 2.1 Similar Image Retrieval (SIR) 2 関連作業 2.1 類似画像検索(SIR) 0.81
The core idea is to convert each image into a fingerprint or signature or unique descriptor [5]. 中心となる考え方は、各画像を指紋または署名またはユニークな記述子に変換することです [5]。
訳抜け防止モード: 中心となる考え方は 各画像を指紋や署名,あるいはユニークな記述子に変換する[5]。
0.81
Under the hood, the fingerprints are essentially embeddings computed from a suitable deep neural network. 内部では、指紋は基本的に適切なディープニューラルネットワークから計算された埋め込みである。 0.63
We have experimented with a 2 実験をしました 2 0.52
英語(論文から抽出)日本語訳スコア
Identical Image Retrieval using Deep Learning 深層学習を用いた画像検索 0.79
large number of techniques for embedding generation and settled down on VGG16 [12] as our primary network. 生成とVGG16[12]を基本ネットワークとして,多数のテクニックが組み込まれました。 0.74
The embeddings are taken off the final fully connected layer of VGG16 [12]. 埋め込みは、VGG16[12]の最終完全連結層から取り出される。 0.69
A typical embedding is a high dimensional vector consisting of floating-point numbers. 典型的な埋め込みは浮動小数点数からなる高次元ベクトルである。 0.80
In its binarized form, the embeddings are further split into smaller subcodes and ingested into the Elasticsearch index. 双項化形式では、埋め込みはさらに小さなサブコードに分割され、Elasticsearchインデックスに取り込みます。 0.76
At retrieval time, we also take advantage of Elasticsearch’s ability to compute efficient hamming distance calculations in the form of bit operations. 検索時には、elasticsearchの効率的なハミング距離計算をビット演算という形で計算する能力も活用しています。 0.80
The business applications focus mostly on the images that were added to the catalogue in the last few weeks. ビジネスアプリケーションは主に、過去数週間にカタログに追加されたイメージに焦点を当てている。 0.77
Hence, we have designed the index creation as a rolling process so that the new and recently updated images are always indexed. したがって、最近更新された新しい画像が常にインデックス化されるように、インデックス作成をローリングプロセスとして設計しました。 0.72
The currently deployed system listens to a Kafka topic that streams new and updated images. 現在デプロイされているシステムは、新しく更新されたイメージをストリームするKafkaトピックを聴く。 0.59
A rolling index (last 3 months) of newly created images is maintained for subsequent search and retrieval [5]. 新たに作成した画像のローリングインデックス(過去3ヶ月)を後続の検索検索のために保持する[5]。 0.85
The rolling nature of the application makes hash-based indexing a preferable choice over techniques that learn representations collectively from a static dataset such as principal component analysis(PCA) [3]. アプリケーションのローリングの性質は、主成分分析(PCA)[3]のような静的データセットから表現を集合的に学習するテクニックよりも、ハッシュベースのインデックスを好ましい選択にします。 0.75
As the catalogue changes, the optimal principal components change as well, requiring frequent re-computation of them. カタログが変わると、最適な主成分も変化し、頻繁に再計算する必要がある。 0.60
In the retrieval phase, a query image (also called seed image) is provided to the system through the front end. 検索フェーズでは、フロントエンドを介してシステムにクエリ画像(シード画像とも呼ばれる)が提供される。 0.75
In the back end, the query image is converted into an embedding and its nearest neighbors [2] are retrieved from the indexed store. バックエンドでは、クエリイメージが埋め込みに変換され、インデックス付きストアからその最寄りの近傍[2]が検索される。 0.70
The retrieved images are presented in a grid in order of similarity with the query. 検索した画像は、クエリと類似した順にグリッドで表示される。 0.69
Each result image is shown with a checkbox, allowing the user to select only the relevant ones from the grid. 各結果イメージはチェックボックスで表示され、ユーザーはグリッドから関連するものだけを選択することができる。 0.83
2.2 Image similarity with Deep CNN 2.2 Deep CNNと画像の類似性 0.51
Image verification algorithms aim to determine whether a given pair of images are similar or not [7]. 画像検証アルゴリズムは,画像の対が [7] に類似しているか否かを判定することを目的とする。
訳抜け防止モード: 画像検証アルゴリズムの目標 所定の対の画像を[7]に類似させるか否かを判定する。
0.81
Image verification is different from image identification. 画像認証は画像識別とは異なる。 0.75
The former solves similar image use-cases whereas the latter is more of an image retrieval nature. 前者は同様の画像のユースケースを解き、後者は画像検索の性質である。 0.77
The advancements in the Image verification field are in two broad areas i.e. image embedding and metric learning-based [27]. 画像検証分野の進歩は、画像埋め込みとメトリック学習ベースの[27]という2つの広い分野に及んでいる。 0.78
In image embedding, a robust and discriminative descriptor is learnt to represent each image as a compact feature vector/embedding. 画像埋め込みでは、ロバストで判別可能な記述子を学習し、各画像をコンパクトな特徴ベクトル/埋め込みとして表現する。 0.57
Current 1 state-of-the-art feature descriptors is generated by CNN [8] which learns features on its own. 現在の1つの最先端の機能記述子は、CNN[8]によって生成される。 0.56
SimNet [23] uses a multi-scale CNN [9] in a Siamese Network [22] which learns a 4096-dimensional embedding of an image. SimNet[23]は、シームズネットワーク[22]のマルチスケールCNN[9]を使用して、画像の4096次元埋め込みを学習する。 0.74
Siamese networks [22] require pair forming i.e. positive image pairs (near similar images) and negative image pairs (non-similar images) for it to learn distance margin. シームズネットワーク[22]は、距離マージンを学習するために、正のイメージ対(ほぼ類似画像)と負のイメージ対(非類似画像)のペア形成を必要とする。 0.74
Choosing the right pairs of images for training turns out to be very important for achieving good model performance and faster model convergence. トレーニング用の適切なペアのイメージを選択することは、優れたモデルパフォーマンスとより高速なモデル収束を達成する上で非常に重要であることが分かりました。
訳抜け防止モード: トレーニング用イメージの適切なペアを選択する 優れたモデルパフォーマンスとより高速なモデル収束を達成するためには、非常に重要です。
0.79
We propose a novel online pair mining strategy(OPMS) which tries to ensure consistently increasing difficulty of image pairs as the network trains. 本稿では,ネットワークのトレーニングに伴う画像ペアの難易度の向上を確実にするための新しいオンラインペアマイニング戦略(OPMS)を提案する。 0.74
Multi-scale CNN [9] used in a Siamese Network [22]. siameseネットワークで使われるマルチスケールcnn[9] [22]。 0.63
This CNN [8] learns a joint image embedding of the top as well as lower layers. このCNN[8]は、上層と下層との結合画像埋め込みを学習する。 0.61
This model learns a much better image embedding than a traditional CNN [8] for the task of image similarity. このモデルは、画像類似性のタスクのために、従来のcnn [8]よりもずっと良い画像埋め込みを学習する。 0.69
3 Proposed Method We have used BigTransfer(BiT) [1] as our pre-trained CNN model [8] to extract the features. 3 提案方法 我々は,事前学習したcnnモデル [8] として bigtransfer(bit) [1] を使用した。 0.57
BigTransfer(BiT) [1] is a set of pre-trained image models that can be transferred to obtain excellent performance on newer datasets, even with few examples per class. bigtransfer(bit) [1] は事前学習されたイメージモデルの集合であり、新しいデータセットで優れたパフォーマンスを得るために転送することができる。 0.79
The performance of the BigTransfer(BiT) [1] model increases as the dataset size increases. BigTransfer(BiT) [1]モデルの性能はデータセットのサイズが大きくなるにつれて向上する。 0.83
Transferring of pre-trained representations improves the efficiency and simplifies hyperparameter tuning when we train a deep neural network for computer vision. 事前訓練された表現の転送により効率が向上し、コンピュータビジョンのためのディープニューラルネットワークをトレーニングする際のハイパーパラメータチューニングが簡単になる。 0.59
BigTransfer(BiT) [1] is trained in a large, generic dataset and its weights are then used to initialise subsequent tasks that can be solved with fewer data points, and less computation. bigtransfer(bit) [1]は、大きな汎用データセットでトレーニングされ、その重みは、少ないデータポイントで解決できる後続のタスクを初期化し、計算量を減らすために使用される。 0.76
BigTransfer(BiT) [1] is trained on three large datasets i.e JFT-300M dataset [6], which contains 300M noise labelled images. BigTransfer(BiT)[1]は、300Mのノイズラベル付き画像を含む3つの大きなデータセット、すなわちJFT-300Mデータセット [6]でトレーニングされる。 0.71
BigTransfer(BiT) [1] is transferred to execute many diverse tasks by setting the train set sizes from one example per class to one million examples per class. BigTransfer(BiT) [1]は、クラス毎に1つの例から1クラス当たり100万の例に列車セットのサイズを設定することで、さまざまなタスクを実行するために転送される。
訳抜け防止モード: BigTransfer(BiT ) [ 1 ] は様々なタスクを実行するために転送される 列車のセットサイズをクラス毎に1つの例からクラス毎に100万例に設定する。
0.78
BigTransfer(BiT) [1] is highly effective and provides insight into the interplay between scale, architecture and training hyperparameters. BigTransfer(BiT)[1]は非常に効果的で、スケール、アーキテクチャ、トレーニングハイパーパラメータ間の相互作用についての洞察を提供する。 0.66
Figure 2: The x-axis shows the number of images used per class, ranging from 1 to the full dataset. 図2: x軸は1から全データセットまで、クラス毎に使用される画像数を示しています。 0.84
On the plots on the left, the curve in blue above is our BiT-L model, whereas the curve below is a ResNet-50 pre-trained on ImageNet (ILSVRC-2012) 左側のプロットでは、上図の青い曲線はBiT-Lモデルであり、下図の曲線はImageNet上で事前訓練されたResNet-50である(ILSVRC-2012)。 0.70
3 3 0.42
英語(論文から抽出)日本語訳スコア
Identical Image Retrieval using Deep Learning 深層学習を用いた画像検索 0.79
We are extracting the BigTransfer(BiT) [1] model to extract the image features and using those features we are calculating the distance between the images using the reference image. 画像特徴を抽出するためにBigTransfer(BiT)[1]モデルを抽出し、それらの特徴を用いて参照画像を用いて画像間の距離を算出する。 0.74
The greater the distance the more likely the images are alike. 距離が大きいほど、画像が似ている可能性が高い。 0.74
It scales well to millions of data points, and It achieves a good trade-off between the probability of error and the number of data points needed to achieve this probability. 数百万のデータポイントにうまくスケールし、この確率を達成するのに必要なデータポイントの数とエラーの確率との間に良いトレードオフを達成します。 0.80
Figure 3: Proposed Architecture 図3: 提案されたアーキテクチャ 0.67
4 Experiments 4.1 Experimental Setup 4つの実験 4.1 実験装置 0.66
In this experiment, we have used the dataset of flowers [4] provided by tensorflow. この実験では、tensorflowが提供する花[4]のデータセットを使用しました。 0.74
It is popularly known as tf_flower [4]. 一般に tf_flower [4] として知られている。 0.66
TensorFlow Flower Dataset [4] consists of five classes. TensorFlow Flower Dataset [4]は5つのクラスで構成される。 0.77
Five classes are labelled as ’Daisy’, ’Dandelion’, ’Roses’, ’Sunflowers’, ’Tulips’. 5つのクラスは‘Daisy’、‘Dandelion’、‘Roses’、‘Sunflowers’、‘Tulips’とラベル付けされている。 0.81
The number of classes for the dataset is imbalanced. データセットのクラス数は不均衡です。 0.68
The dataset is being loaded using the tensorflow dataset [4]. データセットは tensorflow データセット [4] を使用してロードされます。 0.75
The dataset is then divided into train and validation data. データセットは、トレインとバリデーションデータに分割される。 0.72
85% of the data is taken as the training data and the rest of the data is taken as validation data. データの85%をトレーニングデータとして、残りを検証データとして取ります。
訳抜け防止モード: 85パーセントのデータをトレーニングデータとして取ります そして残りのデータは検証データとして取り込まれます。
0.78
The number of training and validation samples were 3120 and 550. トレーニングと検証のサンプル数は3120件と550件であった。 0.76
To make our model more robust I applied data augmentation [25, 26]. モデルをより堅牢にするために、データ拡張[25, 26]を適用しました。 0.71
Used random flip with horizontal and vertically on the images. 画像に水平と垂直にランダムなフリップを使った。 0.77
Used a random rotation with a factor of 0.2. 0.2倍のランダムな回転を使った。 0.77
Applied random zoom at a height and width factor of 0.2. 高さおよび幅係数0.2のランダムズームを適用した。 0.65
Training images are resized to 160 and images are randomly cropped to 128. トレーニング画像は160にリサイズされ、ランダムに128にトリミングされる。 0.71
Validation images are resized to 160. 検証画像は160にリサイズされる。 0.72
We loaded the pre-trained BigTransfer(BiT) [1] model which is trained on ImageNet21k [13] downloaded from TensorFlow Hub [14, 15, 21]. TensorFlow Hub [14, 15, 21]からダウンロードされたImageNet21k[13]でトレーニングされた、事前トレーニング済みのBigTransfer(BiT)[1]モデルをロードしました。 0.74
We created a BigTransfer(BiT) [1] model and normalised the dense representation. 我々はBigTransfer(BiT)[1]モデルを作成し、密度表現を正規化した。 0.83
Used TripletSemiHardLoss [17] as a loss function. TripletSemiHardLoss [17] を損失関数として使用した。 0.77
The loss encourages the positive distances (between a pair of embeddings with the same labels) to be smaller than the minimum negative distance among which are at least greater than the positive distance plus the margin constant (called semi-hard negative) in the mini-batch. この損失により、(同じラベルを持つ埋め込みの組の間の)正距離は、最小負距離よりも小さくなり、そのうち少なくとも正距離と、ミニバッチのマージン定数(半ハードネガティブと呼ばれる)よりも大きい。 0.71
If no such negative exists, use the largest negative distance instead. そのような負が存在しない場合は、代わりに最大の負距離を使う。 0.66
(cid:107)f (xa (cid:107)f(xa) 0.40
i ) − f (xp i ) − f (xp ) 0.47
2 i )(cid:107)2 2 i (cid:107)2 0.44
2 < (cid:107)f (xa 2 < (cid:107)f (xa) 0.43
i ) − f (xn i) − f(xn) 0.48
i )(cid:107)2 i (cid:107)2 0.46
(1) We used Scholastic Gradient Descent [18, 19, 20] as our optimizer with a variable learning rate and momentum of 0.9. (1) 可変学習速度と運動量0.9のオプティマイザとして,スコラ勾配降下 [18,19,20] を用いた。 0.58
The learning rate was decaying by a factor of 10 at schedule boundaries. 学習率はスケジュール境界で10倍に低下していた。 0.72
4 4 0.43
英語(論文から抽出)日本語訳スコア
Identical Image Retrieval using Deep Learning 深層学習を用いた画像検索 0.79
Figure 4: Visualization of TensorFlow Dataset before training 図4:トレーニング前のTensorFlowデータセットの可視化 0.83
for i in range (m): i in range (m): 0.36
Θj = Θj − α(cid:0)(cid:98)yi − yi(cid:1) xi θj = θj − α(cid:0)(cid:98)yi − yi(cid:1) xi 0.39
j (2) After compiling the model and the callbacks for the models are set up. j (2) モデルをコンパイルした後、モデルのコールバックが設定されます。 0.53
Used Early Stopping to monitor the validation loss with a patience rate of 5 and standard rate for verbose i.e 2. 早期停止は、持続率5、標準レート2で検証損失を監視するために使用された。 0.62
Used CSV Logger to log all the data during training the model. CSV Loggerを使用して、モデルのトレーニング中にすべてのデータをログする。 0.75
4.2 Experimental Results After setting up the experiment, we trained our BigTransfer(BiT) [1] model on the flower dataset [4]. 4.2 実験結果 実験をセットアップした後、花データセット[4]上でBigTransfer(BiT)[1]モデルをトレーニングしました。 0.77
Our training started with a loss of 0.94 and a validation loss of 0.91. 我々の訓練は 0.94 の損失と 0.91 の検証損失から始まった。 0.74
The training is being done on Tesla V100-SXM2. 訓練はTesla V100-SXM2で行われている。 0.58
The average time for an epoch is 2 seconds. エポックの平均時間は2秒である。 0.62
The training time was 78.68 seconds with only 21 epochs. 訓練時間は78.68秒で21エポックしかなかった。 0.72
Our loss and validation loss after 21 epochs is 0.23 and 0.30 respectively. 21エポック後の損失と検証損失はそれぞれ0.23と0.30である。 0.66
(a) Training Graph (a)トレーニンググラフ 0.81
(b) Visualizing the Embedding Space for Current Validation Batch Figure 5: Visualizing the Results (b)現在の検証バッチ図5の埋め込み空間の可視化:結果の可視化 0.86
(c) Visualizing the Embedding Space for Entire Validation Batch (c)バリデーションバッチ全体の埋め込み空間の可視化 0.73
Saved the BigTransfer(BiT) [1] model after training the model on flower dataset [4]. 花データセットのモデルをトレーニングした後、BigTransfer(BiT)[1]モデルを保存する[4]。 0.85
Defining the BigTransfer(BiT) Model to load the model weights we saved as our Keras model. bigtransfer(bit)モデルを定義して、kerasモデルとして保存したモデル重みをロードします。
訳抜け防止モード: BigTransfer(BiT )モデルの定義 Kerasモデルとして保存したモデルの重みをロードします。
0.86
Created a validation pipeline for training the nearest neighbor [2] model. 隣人の[2]モデルをトレーニングするための検証パイプラインを作成しました。 0.65
We are calculating our nearest neighbor [2] for the features of our query image. 我々は、クエリ画像の特徴について、最寄りの近傍[2]を計算している。 0.59
The model took 0.00043 seconds for 550 samples. このモデルは550サンプルに対して0.00043秒を要した。 0.57
5 5 0.43
英語(論文から抽出)日本語訳スコア
Identical Image Retrieval using Deep Learning 深層学習を用いた画像検索 0.79
Figure 6: Results of the Experimentation 5 Conclusion 図6:実験結果 5 結論 0.65
This project shows how to scale up the pre-trained model by training on a larger dataset to extract key features. このプロジェクトでは、より大きなデータセットをトレーニングして、トレーニング済みのモデルをスケールアップして、重要な機能を抽出する方法を示す。 0.55
The model is based on a Resnet152 [10] backbone and the classifier is an FCN-8s. モデルはResnet152[10]バックボーンに基づいており、分類器はFCN-8sである。 0.76
The model is based on the code release for BiT-M. モデルはBiT-Mのコードリリースに基づいている。 0.79
BigTransfer(BiT) [1] does not require any pre-processing to the input images, i.e., we can use vanilla ImageNet models to transfer on any visual tasks. BigTransfer(BiT) [1] は入力された画像への事前処理を必要としない。
訳抜け防止モード: BigTransfer(BiT ) [ 1 ] は入力画像にプリ-処理を必要としない。 例えば、バニライメージネットモデルを使って任意の視覚的タスクを転送できる。
0.79
We see this as an important step towards practical implementations. これは実践的な実装に向けた重要なステップだと考えています。 0.51
6 6 0.42
英語(論文から抽出)日本語訳スコア
Identical Image Retrieval using Deep Learning 深層学習を用いた画像検索 0.79
The idea behind our model is to build highly accurate and low latency visual search tools that can fit in with many business facing applications. このモデルの背後にある考え方は、多くのビジネス向けアプリケーションに適合する、高精度で低レイテンシのビジュアル検索ツールを構築することです。
訳抜け防止モード: 私たちのモデルの裏にあるアイデアは 多くのビジネス向けアプリケーションに適合する高精度で低レイテンシのビジュアル検索ツールを構築する。
0.77
References [1] Kolesnikov A. et al (2020) Big Transfer (BiT): General Visual Representation Learning. 参考文献 [1] Kolesnikov A. et al (2020) Big Transfer (BiT): General Visual Representation Learning。 0.54
In: Vedaldi A., Bischof H., Brox T., Frahm JM. Vedaldi A., Bischof H., Brox T., Frahm JM 0.29
(eds) Computer Vision – ECCV 2020. (eds) コンピュータビジョン - ECCV 2020。 0.60
ECCV 2020. 2020年、ECCV。 0.67
Lecture Notes in Computer Science, vol 12350. コンピュータ科学の講義ノート 12350年。 0.59
Springer, Cham. https://doi.org/10.1 007/978-3-030-58558- 7_29. 春、チャム。 https://doi.org/10.1 007/978-3-030-58558- 7_29。 0.28
[2] Padraig Cunningham, Sarah Jane Delany. サラ・ジェーン・デラニー(Sarah Jane Delany)。 0.55
k-Nearest Neighbour Classifiers: 2nd Edition (with Python examples). k-Nearest Neighbour Classifiers: 2nd Edition (Pythonの例を含む)。 0.79
arXiv preprint arXiv:2004.04523, 2020. arxiv プレプリント arxiv:2004.04523, 2020 0.43
[3] Felipe L. Gewers, Gustavo R. Ferreira, Henrique F. de Arruda, Filipi N. Silva, Cesar H. Comin, Diego R. Amancio, Luciano da F. Costa. Felipe L. Gewers, Gustavo R. Ferreira, Henrique F. de Arruda, Filipi N. Silva, Cesar H. Comin, Diego R. Amancio, Luciano da F. Costa
訳抜け防止モード: [3 ]Felipe L. Gewers, Gustavo R. Ferreira, Henrique F. de Arruda, Filipi N. Silva, Cesar H. Comin, Diego R. Amancio ルチアーノ・ダ・F・コスタリカ出身。
0.86
Principal Component Analysis: A Natural Approach to Data Exploration. 主成分分析:データ探索への自然なアプローチ。 0.76
arXiv preprint arXiv:1804.02502, 2018. arXiv preprint arXiv:1804.02502, 2018 0.40
[4] TensorFlow Dataset. [4]TensorFlowデータセット。 0.88
https://www.tensorflow.org/datasets/cata log/tf_flowers. https://www.tensorfl ow.org/datasets/cata log/tf_flowers 0.16
[5] Theban Stanley, Nihar Vanjara, Yanxin Pan, Ekaterina Pirogova, Swagata Chakraborty, Abon Chaudhuri. [5]Theban Stanley、Nihar Vanjara、Yanxin Pan、Ekaterina Pirogova、Swagata Chakraborty、Abon Chaudhuri。 0.36
SIR: Similar Image Retrieval for Product Search in E-Commerce. サー:eコマースにおける商品検索の類似画像検索。 0.68
Accepted in 13th International Conference on Similarity Search and Applications, SISAP 2020 arXiv preprint arXiv:2009.13836, 2020. 第13回類似性検索応用国際会議(SISAP 2020 arXiv preprint arXiv:2009.13836, 2020)に参加。 0.77
[6] Sun,C. ,Shrivastava,A. [6]Sun,C。 通称、shrivastava。 0.40
,Singh,S. ,Gupta. とSingh,S。 とGupta。 0.69
A. :Revisiting unreasonable effectiveness of data in deep learning era. aだ 深層学習におけるデータの不合理な有効性の再考 0.64
In ICCV (2017) arXiv preprint arXiv:2009.13836, 2017. 院 ICCV (2017) arXiv preprint arXiv:2009.13836, 2017 0.44
[7] Srikar Appalaraju, Vineet Chaoji. [7]Srikar Appalaraju,Vinet Chaoji。 0.31
Image similarity using Deep CNN and Curriculum Learning. Deep CNN と Curriculum Learning を用いた画像の類似性 0.77
arXiv preprint arXiv プレプリント 0.83
arXiv:1709.08761, 2017. arxiv:1709.08761, 2017年。 0.37
[8] Keiron O’Shea, Ryan Nash. [8]Keiron O’Shea, Ryan Nash 0.32
An Introduction to Convolutional Neural Networks. 畳み込みニューラルネットワーク入門 0.35
arXiv preprint arXiv:1511.08458, arXiv preprint arXiv:1511.08458, 0.33
2015. [9] Federico Vaccaro, Marco Bertini, Tiberio Uricchio, Alberto Del Bimbo. 2015. 9]Federico Vaccaro, Marco Bertini, Tiberio Uricchio, Alberto Del Bimbo 0.38
Image Retrieval using Multi-scale CNN マルチスケールCNNを用いた画像検索 0.54
Features Pooling. arXiv preprint arXiv:2004.09695, 2020. プーリング機能。 arxiv プレプリント arxiv:2004.09695, 2020 0.43
[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. 〔10〕開明彼、西安宗、宗慶連、鑑真 0.35
Deep Residual Learning for Image Recognition. 画像認識のための深い残差学習 0.78
arXiv preprint arXiv:1512.03385, 2015. arXiv arxiv:1512.03385、2015年。 0.40
[11] Dor Bank, Noam Koenigstein, Raja Giryes. Dor Bank, Noam Koenigstein, Raja Giryes. [11] Dor Bank, Noam Koenigstein, Raja Giryes. 0.31
Autoencoders. arXiv preprint arXiv:2003.05991, 2020. オートエンコーダ。 arxiv プレプリント arxiv:2003.05991, 2020 0.52
[12] Karen Simonyan, Andrew Zisserman. 12]カレン・シモンヤン アンドリュー・ジッセルマン 0.55
Very Deep Convolutional Networks for Large-Scale Image Recognition. 大規模画像認識のための深層畳み込みネットワーク 0.77
arXiv preprint arXiv:1409.1556, 2014. arxiv プレプリント arxiv:1409.1556, 2014 0.45
[13] Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, Lihi Zelnik-Manor. 13]Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, Lihi Zelnik-Manor。 0.45
ImageNet-21K Pretraining for the Masses. ImageNet-21K 大衆のための事前訓練。 0.55
arXiv preprint arXiv:2104.10972, 2021. arXiv arXiv:2104.10972, 2021 0.40
[14] TensorFlow Hub. TensorFlow Hub. [14] TensorFlow Hub。 0.34
https://www.tfhub.de v. https://www.tfhub.de v。 0.26
[15] BiT Model on TensorFlow Hub. TensorFlow Hub上の[15] BiTモデル。 0.81
https://tfhub.dev/go ogle/bit/m-r50x1/1. https://tfhub.dev/go ogle/bit/m-r50x1/1。 0.13
[16] GitHub-Code. [16] github-code。 0.38
https://github.com/s ayannath/Identical-I mage-Retrieval. https://github.com/s ayannath/Identical-I mage-Retrieval.com 0.15
[17] TripletSemiHardLoss. 17]トリプレット・セミハードロス 0.54
https://www.tensorflow.org/addons/api_do cs/python/tfa/losses /TripletSemiHardLoss [18] Kartik Chandra, Erik Meijer, Samantha Andow, Emilio Arroyo-Fang, Irene Dea, Johann George, Melissa Grueter, Basil Hosmer, Steffi Stumpos, Alanna Tempest, Shannon Yang. https://www.tensorfl ow.org/addons/api_do cs/python/tfa/losses /TripletSemiHardLoss [18] Kartik Chandra, Erik Meijer, Samantha Andow, Emilio Arroyo-Fang, Irene Dea, Johann George, Melissa Grueter, Basil Hosmer, Steffi Stumpos, Alanna Tempest, Shannon Yang。 0.38
Gradient Descent: The Ultimate Optimizer. 勾配降下:究極のオプティマイザ。 0.57
arXiv preprint arXiv:1909.13371, 2019. arXiv preprint arXiv:1909.13371, 2019 0.41
[19] Arnulf Jentzen, Adrian Riekert. Arnulf Jentzen, Adrian Riekert (英語) 0.55
A proof of convergence for stochastic gradient descent in the training of artificial 人工学習における確率的勾配降下に対する収束の証明 0.70
neural networks with ReLU activation for constant target functions. 一定のターゲット関数に対するReLUアクティベーションを持つニューラルネットワーク。 0.75
arXiv preprint arXiv:2104.00277, 2021. arXiv preprint arXiv:2104.00277, 2021 0.40
[20] Stephan Wojtowytsch. ステファン・ウォイトウィッチ(Stephan Wojtowytsch)。 0.50
Stochastic gradient descent with noise of machine learning type. 機械学習型雑音を伴う確率的勾配降下 0.60
Part II: Continuous time パートII:連続時間 0.71
analysis. arXiv preprint arXiv:2106.02588, 2021. 分析。 arXiv preprint arXiv:2106.02588, 2021 0.39
[21] BigTransfer GitHub. [21] BigTransfer GitHub。 0.41
https://www.github.c om/google-research/b ig_transfer. https://www.github.c om/google-research/b ig_transfer。 0.15
[22] Lev V. Utkin, Maxim S. Kovalev, and Ernest M. Kasimov. He22] Lev V. Utkin, Maxim S. Kovalev, Ernest M. Kasimov 0.41
An explanation method for Siamese neural networks. siameseニューラルネットワークの説明法 0.47
arXiv preprint arXiv:1911.07702, 2019. arXiv preprint arXiv:1911.07702, 2019 0.41
[23] Luca Bergamini, Yawei Ye, Oliver Scheel, Long Chen, Chih Hu, Luca Del Pero, Blazej Osinski, Hugo Grimmett, Peter Ondruska. Luca Bergamini, Yawei Ye, Oliver Scheel, Long Chen, Chih Hu, Luca Del Pero, Blazej Osinski, Hugo Grimmett, Peter Ondruska。
訳抜け防止モード: [23 ] Luca Bergamini, Yawei Ye, Oliver Scheel, Long Chen, Chih Hu, Luca Del Pero, Blazej Osinski ヒューゴ・グリメット(Hugo Grimmett)、ピーター・オンドラスカ(Peter Ondruska)。
0.83
SimNet: Learning Reactive Self-driving Simulations from Real-world Observations. SimNet: 現実の観察からリアクティブな自動運転シミュレーションを学ぶ。 0.73
arXiv preprint arXiv:2105.12332, 2021. arxiv プレプリント arxiv:2105.12332, 2021。 0.41
[24] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, [24]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, 0.44
Illia Polosukhin. イリア・ポロスクヒン 0.44
Attention Is All You Need. 注意はあなたが必要とするすべてです。 0.61
arXiv preprint arXiv:2105.12332, 2017. arxiv プレプリント arxiv:2105.12332, 2017 0.40
7 7 0.42
英語(論文から抽出)日本語訳スコア
Identical Image Retrieval using Deep Learning 深層学習を用いた画像検索 0.79
[25] Luis Perez, Jason Wang. 25]ルイス・ペレス ジェイソン・ワン 0.52
The Effectiveness of Data Augmentation in Image Classification using Deep Learning. 深層学習を用いた画像分類におけるデータ拡張の有効性 0.79
arXiv preprint arXiv:1712.04621, 2017. arxiv プレプリント arxiv:1712.04621, 2017 0.44
[26] Ilya Kostrikov, Denis Yarats, Rob Fergus. Ilya Kostrikov氏、Denis Yarats氏、Rob Fergus氏。 0.68
Image Augmentation Is All You Need: Regularizing Deep Reinforcement 深部強化を定期的に行う「画像強化」 0.58
Learning from Pixels. Pixelsから学ぶ。 0.74
arXiv preprint arXiv:2004.13649, 2020. arxiv プレプリント arxiv:2004.13649, 2020 0.43
[27] Marc Niethammer, Roland Kwitt, Francois-Xavier Vialard. Marc Niethammer, Roland Kwitt, Francois-Xavier Vialard。 0.34
Metric Learning for Image Registration. 画像登録のためのメトリック学習 0.80
arXiv preprint arXiv:1904.09524, 2019. arXiv プレプリントarxiv:1904.09524, 2019。 0.45
8 8 0.42
                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。