論文の概要: A Triplet-loss Dilated Residual Network for High-Resolution
Representation Learning in Image Retrieval
- arxiv url: http://arxiv.org/abs/2303.08398v1
- Date: Wed, 15 Mar 2023 07:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:48:28.363187
- Title: A Triplet-loss Dilated Residual Network for High-Resolution
Representation Learning in Image Retrieval
- Title(参考訳): 画像検索における高分解能表現学習のための三重項拡張残差ネットワーク
- Authors: Saeideh Yousefzadeh, Hamidreza Pourreza, Hamidreza Mahyar
- Abstract要約: ローカライゼーションなどのいくつかのアプリケーションでは、画像検索が最初のステップとして使用される。
本論文では,トレーニング可能なパラメータが少ない,単純かつ効率的な画像検索システムを提案する。
提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content-based image retrieval is the process of retrieving a subset of images
from an extensive image gallery based on visual contents, such as color, shape
or spatial relations, and texture. In some applications, such as localization,
image retrieval is employed as the initial step. In such cases, the accuracy of
the top-retrieved images significantly affects the overall system accuracy. The
current paper introduces a simple yet efficient image retrieval system with a
fewer trainable parameters, which offers acceptable accuracy in top-retrieved
images. The proposed method benefits from a dilated residual convolutional
neural network with triplet loss. Experimental evaluations show that this model
can extract richer information (i.e., high-resolution representations) by
enlarging the receptive field, thus improving image retrieval accuracy without
increasing the depth or complexity of the model. To enhance the extracted
representations' robustness, the current research obtains candidate regions of
interest from each feature map and applies Generalized-Mean pooling to the
regions. As the choice of triplets in a triplet-based network affects the model
training, we employ a triplet online mining method. We test the performance of
the proposed method under various configurations on two of the challenging
image-retrieval datasets, namely Revisited Paris6k (RPar) and UKBench. The
experimental results show an accuracy of 94.54 and 80.23 (mean precision at
rank 10) in the RPar medium and hard modes and 3.86 (recall at rank 4) in the
UKBench dataset, respectively.
- Abstract(参考訳): コンテンツベースの画像検索は、色、形状、空間関係、テクスチャなどの視覚的コンテンツに基づいて、広範囲の画像ギャラリーから画像のサブセットを取得するプロセスである。
ローカライゼーションなどのアプリケーションでは、最初のステップとして画像検索が使用される。
このような場合、トップ検索画像の精度はシステム全体の精度に大きく影響する。
本報告では,トレーニング可能なパラメータが少ない単純な画像検索システムを導入し,トップ検索画像の精度を許容する。
提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。
実験評価により,このモデルでは受容場を拡大することでよりリッチな情報(すなわち高分解能表現)を抽出でき,モデルの奥行きや複雑さを増すことなく画像検索精度を向上させることができた。
抽出された表現のロバスト性を高めるため、本研究は各特徴マップから興味のある候補領域を取得し、その領域に一般化平均プーリングを適用する。
トリプレットベースネットワークにおけるトリプレットの選択がモデルトレーニングに影響するため,トリプレットオンラインマイニング手法を採用する。
本稿では,提案手法の性能を,挑戦的な画像リトライバルデータセットであるrevisited paris6k (rpar) とukbenchの2つの構成で検証した。
実験結果は、RParの媒体では94.54と80.23(平均ランク10の精度)、UKBenchのデータセットでは3.86(ランク4のリコール)の精度を示した。
関連論文リスト
- Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Influence of image noise on crack detection performance of deep
convolutional neural networks [0.0]
深層畳み込みニューラルネットワークを用いた画像データからのひび割れの分類について多くの研究がなされている。
本稿では,画像ノイズがネットワークの精度に与える影響について検討する。
AlexNetは提案したインデックスに基づいて最も効率的なモデルに選ばれた。
論文 参考訳(メタデータ) (2021-11-03T09:08:54Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image
Search and Retrieval [1.123376893295777]
計量空間を学ぶための一般的なアプローチは、類似した(正の)画像と異種(負の)画像の選択に依存する。
マルチラベルRS CBIR問題に対して定義されたディープニューラルネットワーク(DNNs)の枠組みにおける新しいトリプレットサンプリング法を提案する。
論文 参考訳(メタデータ) (2021-05-08T09:16:09Z) - DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation [7.2531609092488445]
画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
論文 参考訳(メタデータ) (2020-12-04T02:16:47Z) - Image Retrieval for Structure-from-Motion via Graph Convolutional
Network [13.040952255039702]
本稿では,グラフ畳み込みネットワーク(GCN)に基づく新しい検索手法を提案する。
問合せ画像を取り巻くサブグラフを入力データとして構築することにより、問合せ画像と重なり合う領域を持つか否かを学習可能なGCNを採用する。
実験により,本手法は高度にあいまいで重複したシーンの挑戦的データセットにおいて,極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-17T04:03:51Z) - Learning Condition Invariant Features for Retrieval-Based Localization
from 1M Images [85.81073893916414]
我々は、より正確で、より一般化されたローカライゼーション特徴を学習する新しい方法を開発した。
難易度の高いオックスフォード・ロボットカーの夜間条件では、5m以内の局所化精度でよく知られた三重項損失を24.4%上回っている。
論文 参考訳(メタデータ) (2020-08-27T14:46:22Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Image Retrieval using Multi-scale CNN Features Pooling [26.811290793232313]
本稿では,NetVLADに基づく新しいマルチスケールローカルプールと,サンプルの難易度に基づくトリプルトマイニング手法を利用して,効率的な画像表現を実現するエンド・ツー・エンドのトレーニング可能なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-21T00:57:52Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。