論文の概要: Compact and Effective Representations for Sketch-based Image Retrieval
- arxiv url: http://arxiv.org/abs/2104.10278v1
- Date: Tue, 20 Apr 2021 22:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:27:22.767406
- Title: Compact and Effective Representations for Sketch-based Image Retrieval
- Title(参考訳): スケッチに基づく画像検索のためのコンパクトで効果的な表現
- Authors: Pablo Torres and Jose M. Saavedra
- Abstract要約: 本稿では,スケッチベース画像検索の文脈において,コンパクト組込み生成手法の評価結果の相違について述べる。
近年の非監督型局所位相保存次元削減法UMAPは,我々の要求に適合し,優れた性能を示す。
UMAPにより、16バイトの特徴ベクトルが精度を35%以上向上させることができることを示しています。
- 参考スコア(独自算出の注目度): 3.274290296343038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sketch-based image retrieval (SBIR) has undergone an increasing interest in
the community of computer vision bringing high impact in real applications. For
instance, SBIR brings an increased benefit to eCommerce search engines because
it allows users to formulate a query just by drawing what they need to buy.
However, current methods showing high precision in retrieval work in a high
dimensional space, which negatively affects aspects like memory consumption and
time processing. Although some authors have also proposed compact
representations, these drastically degrade the performance in a low dimension.
Therefore in this work, we present different results of evaluating methods for
producing compact embeddings in the context of sketch-based image retrieval.
Our main interest is in strategies aiming to keep the local structure of the
original space. The recent unsupervised local-topology preserving dimension
reduction method UMAP fits our requirements and shows outstanding performance,
improving even the precision achieved by SOTA methods. We evaluate six methods
in two different datasets. We use Flickr15K and eCommerce datasets; the latter
is another contribution of this work. We show that UMAP allows us to have
feature vectors of 16 bytes improving precision by more than 35%.
- Abstract(参考訳): スケッチベースの画像検索(SBIR)は、コンピュータビジョンのコミュニティへの関心が高まっ、実際のアプリケーションに大きな影響を与えている。
たとえばSBIRは、ユーザが何を買うかを描くだけで、クエリを定式化できるので、eコマース検索エンジンの利点が増す。
しかし,高次元空間における検索の精度を示す現在の手法は,メモリ消費や時間処理といった側面に悪影響を及ぼす。
一部の著者はコンパクト表現も提案しているが、これらは低次元での性能を劇的に低下させた。
そこで本研究では,スケッチベース画像検索の文脈において,コンパクトな埋め込みを生成するための異なる手法の評価結果を示す。
我々の主な関心は、元の空間の局所的な構造を維持する戦略である。
最近の非教師付き局所位相保存次元減少法UMAPは,我々の要求に適合し,優れた性能を示し,SOTA法による精度も向上した。
2つの異なるデータセットで6つの手法を評価する。
私たちはflickr15kとeコマースデータセットを使っています。
umapによって、16バイトのフィーチャーベクターが35%以上精度が向上することを示した。
関連論文リスト
- Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Embracing Compact and Robust Architectures for Multi-Exposure Image
Fusion [50.598654017728045]
本稿では,堅牢なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを含む探索型パラダイムを提案する。
シーンリライティングと変形可能な畳み込みを利用して、カメラの動きに拘わらず、画像を正確に調整することができる。
我々は、様々な競争方式と比較して最先端の性能を実現し、一般的なシナリオと不整合シナリオに対するPSNRの4.02%と29.34%の改善を実現した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。
提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文 参考訳(メタデータ) (2023-02-25T05:29:45Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation [7.2531609092488445]
画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
論文 参考訳(メタデータ) (2020-12-04T02:16:47Z) - Rethinking Data Augmentation for Image Super-resolution: A Comprehensive
Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。
我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。
提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-04-01T13:49:38Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。