論文の概要: Efficient large-scale image retrieval with deep feature orthogonality
and Hybrid-Swin-Transformers
- arxiv url: http://arxiv.org/abs/2110.03786v1
- Date: Thu, 7 Oct 2021 20:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 06:16:53.841098
- Title: Efficient large-scale image retrieval with deep feature orthogonality
and Hybrid-Swin-Transformers
- Title(参考訳): 深層特徴直交性とハイブリッドスウィン変換器を用いた高能率大規模画像検索
- Authors: Christof Henkel
- Abstract要約: 本稿では,画像検索における最近の研究から概念を組み合わせ,拡張する方法を示す。
EfficientNetバックボーンとHybrid-Swin-Transformerを用いたローカル・グローバル機能(DOLG)の深層融合モデルについて論じる。
本稿では,画像検索のための識別的再分類手法について詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an efficient end-to-end pipeline for largescale landmark
recognition and retrieval. We show how to combine and enhance concepts from
recent research in image retrieval and introduce two architectures especially
suited for large-scale landmark identification. A model with deep orthogonal
fusion of local and global features (DOLG) using an EfficientNet backbone as
well as a novel Hybrid-Swin-Transformer is discussed and details how to train
both architectures efficiently using a step-wise approach and a sub-center
arcface loss with dynamic margins are provided. Furthermore, we elaborate a
novel discriminative re-ranking methodology for image retrieval. The
superiority of our approach was demonstrated by winning the recognition and
retrieval track of the Google Landmark Competition 2021.
- Abstract(参考訳): 大規模ランドマーク認識と検索のための効率的なエンドツーエンドパイプラインを提案する。
画像検索における最近の研究から概念を組み合わせ,拡張する方法を示し,特に大規模ランドマーク識別に適した2つのアーキテクチャを提案する。
EfficientNetバックボーンとHybrid-Swin-Transformerを用いた局所的・大域的特徴(DOLG)の深層直交融合モデルについて論じ、動的マージンを持つステップワイズアプローチとサブセンターアークフェイス損失を用いて、両方のアーキテクチャを効率的に訓練する方法を詳述する。
さらに,画像検索のための識別的再分類手法についても検討した。
このアプローチの優位性は、google landmark competition 2021の認識と検索トラックを勝ち取ることで実証された。
関連論文リスト
- Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient
Vision Transformers [41.78970081787674]
本稿では,高解像度画像生成のためのより効率的な2段階フレームワークを提案する。
我々は,従来手法で用いたグローバルアテンション機構の代わりに,局所アテンションに基づく量子化モデルを用いる。
このアプローチは、より高速な生成速度、より高速な生成忠実度、解像度の向上をもたらす。
論文 参考訳(メタデータ) (2023-10-09T04:38:52Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Light Field Reconstruction via Deep Adaptive Fusion of Hybrid Lenses [67.01164492518481]
本稿では,ハイブリットレンズを用いた高分解能光場(LF)画像の再構成問題について検討する。
本稿では,入力の特徴を包括的に活用できる新しいエンドツーエンド学習手法を提案する。
我々のフレームワークは、高解像度なLFデータ取得のコストを削減し、LFデータストレージと送信の恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2021-02-14T06:44:47Z) - Supporting large-scale image recognition with out-of-domain samples [0.0]
本稿では,インスタンスレベルの認識を行うための効率的なエンドツーエンド手法を提案する。
我々は、付加的な角縁損失で訓練された畳み込みニューラルネットワークを用いて、高次元の特徴空間に画像を埋め込む。
次に、領域外画像との類似性を利用した予測とフィルタノイズを効率よく再現する。
論文 参考訳(メタデータ) (2020-10-04T18:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。