論文の概要: Efficient large-scale image retrieval with deep feature orthogonality
and Hybrid-Swin-Transformers
- arxiv url: http://arxiv.org/abs/2110.03786v1
- Date: Thu, 7 Oct 2021 20:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 06:16:53.841098
- Title: Efficient large-scale image retrieval with deep feature orthogonality
and Hybrid-Swin-Transformers
- Title(参考訳): 深層特徴直交性とハイブリッドスウィン変換器を用いた高能率大規模画像検索
- Authors: Christof Henkel
- Abstract要約: 本稿では,画像検索における最近の研究から概念を組み合わせ,拡張する方法を示す。
EfficientNetバックボーンとHybrid-Swin-Transformerを用いたローカル・グローバル機能(DOLG)の深層融合モデルについて論じる。
本稿では,画像検索のための識別的再分類手法について詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an efficient end-to-end pipeline for largescale landmark
recognition and retrieval. We show how to combine and enhance concepts from
recent research in image retrieval and introduce two architectures especially
suited for large-scale landmark identification. A model with deep orthogonal
fusion of local and global features (DOLG) using an EfficientNet backbone as
well as a novel Hybrid-Swin-Transformer is discussed and details how to train
both architectures efficiently using a step-wise approach and a sub-center
arcface loss with dynamic margins are provided. Furthermore, we elaborate a
novel discriminative re-ranking methodology for image retrieval. The
superiority of our approach was demonstrated by winning the recognition and
retrieval track of the Google Landmark Competition 2021.
- Abstract(参考訳): 大規模ランドマーク認識と検索のための効率的なエンドツーエンドパイプラインを提案する。
画像検索における最近の研究から概念を組み合わせ,拡張する方法を示し,特に大規模ランドマーク識別に適した2つのアーキテクチャを提案する。
EfficientNetバックボーンとHybrid-Swin-Transformerを用いた局所的・大域的特徴(DOLG)の深層直交融合モデルについて論じ、動的マージンを持つステップワイズアプローチとサブセンターアークフェイス損失を用いて、両方のアーキテクチャを効率的に訓練する方法を詳述する。
さらに,画像検索のための識別的再分類手法についても検討した。
このアプローチの優位性は、google landmark competition 2021の認識と検索トラックを勝ち取ることで実証された。
関連論文リスト
- Leveraging High-Resolution Features for Improved Deep Hashing-based Image Retrieval [0.10923877073891444]
本稿では,HHNet(High-Resolution Hashing Network)と呼ばれるディープハッシュタスクのバックボーンとして高分解能ネットワーク(HRNet)を利用する新しい手法を提案する。
提案手法は,CIFAR-10, NUS-WIDE, MS COCO, ImageNetなど,すべてのベンチマークデータセットを対象とした既存手法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-20T16:54:55Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Light Field Reconstruction via Deep Adaptive Fusion of Hybrid Lenses [67.01164492518481]
本稿では,ハイブリットレンズを用いた高分解能光場(LF)画像の再構成問題について検討する。
本稿では,入力の特徴を包括的に活用できる新しいエンドツーエンド学習手法を提案する。
我々のフレームワークは、高解像度なLFデータ取得のコストを削減し、LFデータストレージと送信の恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2021-02-14T06:44:47Z) - Supporting large-scale image recognition with out-of-domain samples [0.0]
本稿では,インスタンスレベルの認識を行うための効率的なエンドツーエンド手法を提案する。
我々は、付加的な角縁損失で訓練された畳み込みニューラルネットワークを用いて、高次元の特徴空間に画像を埋め込む。
次に、領域外画像との類似性を利用した予測とフィルタノイズを効率よく再現する。
論文 参考訳(メタデータ) (2020-10-04T18:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。