論文の概要: STIR: Siamese Transformer for Image Retrieval Postprocessing
- arxiv url: http://arxiv.org/abs/2304.13393v2
- Date: Thu, 27 Apr 2023 05:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 15:50:38.072415
- Title: STIR: Siamese Transformer for Image Retrieval Postprocessing
- Title(参考訳): stir:画像検索後処理のためのsiamese transformer
- Authors: Aleksei Shabanov, Aleksei Tarasov, Sergey Nikolenko
- Abstract要約: 画像検索のための現在のメートル法学習アプローチは、通常、情報的潜在表現の空間を学習することに基づいている。
HypViTのような最近の技術手法は、より良い結果をもたらすが生産環境にスケールするのが困難であるより複雑な埋め込み空間へと移行している。
本稿では,画像検索のためのシームズ変換器(Siamese Transformer for Image Retrieval)という,画像検索後処理のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current metric learning approaches for image retrieval are usually based on
learning a space of informative latent representations where simple approaches
such as the cosine distance will work well. Recent state of the art methods
such as HypViT move to more complex embedding spaces that may yield better
results but are harder to scale to production environments. In this work, we
first construct a simpler model based on triplet loss with hard negatives
mining that performs at the state of the art level but does not have these
drawbacks. Second, we introduce a novel approach for image retrieval
postprocessing called Siamese Transformer for Image Retrieval (STIR) that
reranks several top outputs in a single forward pass. Unlike previously
proposed Reranking Transformers, STIR does not rely on global/local feature
extraction and directly compares a query image and a retrieved candidate on
pixel level with the usage of attention mechanism. The resulting approach
defines a new state of the art on standard image retrieval datasets: Stanford
Online Products and DeepFashion In-shop. We also release the source code at
https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/
and an interactive demo of our approach at
https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/
- Abstract(参考訳): 画像検索のための現在の計量学習アプローチは、通常、コサイン距離のような単純なアプローチがうまく機能する情報的潜在表現の空間を学習することに基づいている。
HypViTのような最近の技術手法は、より良い結果をもたらすが生産環境にスケールするのが困難であるより複雑な埋め込み空間へと移行している。
本研究は,まず,芸術レベルでは機能するが,欠点は持たない,ハードネガマイニングを伴う三重項損失に基づく簡易モデルを構築した。
次に,Samese Transformer for Image Retrieval (STIR) と呼ばれる画像検索後処理のための新しい手法を提案する。
以前提案されたリカレントトランスフォーマーとは異なり、STIRはグローバル/ローカルな特徴抽出に頼らず、クエリ画像と検索候補を直接ピクセルレベルで比較し、アテンション機構を使用する。
その結果得られたアプローチは、標準的な画像検索データセットであるstanford online productsとdeepfashion in-shopの新しい最先端を定義する。
また、ソースコードはhttps://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/で公開しています。
関連論文リスト
- Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer [21.832249148699397]
シーンを描写した画像からカメラパラメータを推定するタスクに対処する。
学習に基づく再ローカライズ手法であるシーン座標回帰により、未提示画像から暗黙的なニューラルシーン表現を構築することができることを示す。
論文 参考訳(メタデータ) (2024-04-22T17:02:33Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Mixing Histopathology Prototypes into Robust Slide-Level Representations
for Cancer Subtyping [19.577541771516124]
計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存している。
複数のインスタンス学習手法やトランスフォーマーモデルを適用することは、各イメージとして計算コストが高く、すべてのインスタンスを同時に処理する必要がある。
TheMixerは、特に大規模データセットにおいて、一般的なビジョントランスフォーマーの未探索の代替モデルである。
論文 参考訳(メタデータ) (2023-10-19T14:15:20Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation [70.00392682183515]
従来のクロスビュー画像変換法では、ターゲットビューで画像を生成することは困難である。
本稿では,カスケードクロスミキサー(CrossMLP)サブネットワークを用いた新しい2段階フレームワークを提案する。
最初の段階では、CrossMLPサブネットワークは、画像コードとセマンティックマップコードの間の潜時変換のキューを学習する。
第2段階では、ノイズの多いセマンティックラベル問題を緩和する改良されたピクセルレベルの損失を設計する。
論文 参考訳(メタデータ) (2021-10-19T18:03:30Z) - Sparse Spatial Transformers for Few-Shot Learning [6.271261279657655]
限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
論文 参考訳(メタデータ) (2021-09-27T10:36:32Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z) - Instance-level Image Retrieval using Reranking Transformers [18.304597755595697]
インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトに一致する画像の大規模なデータベースで検索するタスクです。
RRT(Reranking Transformers)を一般的なモデルとして提案し、ローカル機能とグローバル機能の両方を組み込んでマッチングイメージをランク付けします。
RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。
論文 参考訳(メタデータ) (2021-03-22T23:58:38Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。