論文の概要: Compact and Effective Representations for Sketch-based Image Retrieval
- arxiv url: http://arxiv.org/abs/2104.10278v1
- Date: Tue, 20 Apr 2021 22:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:27:22.767406
- Title: Compact and Effective Representations for Sketch-based Image Retrieval
- Title(参考訳): スケッチに基づく画像検索のためのコンパクトで効果的な表現
- Authors: Pablo Torres and Jose M. Saavedra
- Abstract要約: 本稿では,スケッチベース画像検索の文脈において,コンパクト組込み生成手法の評価結果の相違について述べる。
近年の非監督型局所位相保存次元削減法UMAPは,我々の要求に適合し,優れた性能を示す。
UMAPにより、16バイトの特徴ベクトルが精度を35%以上向上させることができることを示しています。
- 参考スコア(独自算出の注目度): 3.274290296343038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sketch-based image retrieval (SBIR) has undergone an increasing interest in
the community of computer vision bringing high impact in real applications. For
instance, SBIR brings an increased benefit to eCommerce search engines because
it allows users to formulate a query just by drawing what they need to buy.
However, current methods showing high precision in retrieval work in a high
dimensional space, which negatively affects aspects like memory consumption and
time processing. Although some authors have also proposed compact
representations, these drastically degrade the performance in a low dimension.
Therefore in this work, we present different results of evaluating methods for
producing compact embeddings in the context of sketch-based image retrieval.
Our main interest is in strategies aiming to keep the local structure of the
original space. The recent unsupervised local-topology preserving dimension
reduction method UMAP fits our requirements and shows outstanding performance,
improving even the precision achieved by SOTA methods. We evaluate six methods
in two different datasets. We use Flickr15K and eCommerce datasets; the latter
is another contribution of this work. We show that UMAP allows us to have
feature vectors of 16 bytes improving precision by more than 35%.
- Abstract(参考訳): スケッチベースの画像検索(SBIR)は、コンピュータビジョンのコミュニティへの関心が高まっ、実際のアプリケーションに大きな影響を与えている。
たとえばSBIRは、ユーザが何を買うかを描くだけで、クエリを定式化できるので、eコマース検索エンジンの利点が増す。
しかし,高次元空間における検索の精度を示す現在の手法は,メモリ消費や時間処理といった側面に悪影響を及ぼす。
一部の著者はコンパクト表現も提案しているが、これらは低次元での性能を劇的に低下させた。
そこで本研究では,スケッチベース画像検索の文脈において,コンパクトな埋め込みを生成するための異なる手法の評価結果を示す。
我々の主な関心は、元の空間の局所的な構造を維持する戦略である。
最近の非教師付き局所位相保存次元減少法UMAPは,我々の要求に適合し,優れた性能を示し,SOTA法による精度も向上した。
2つの異なるデータセットで6つの手法を評価する。
私たちはflickr15kとeコマースデータセットを使っています。
umapによって、16バイトのフィーチャーベクターが35%以上精度が向上することを示した。
関連論文リスト
- Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms [1.1557852082644071]
少数の分類の文脈において、ゴールは、限られた数のサンプルを使用して分類器を訓練することである。
伝統的なメートル法は、この目的を達成するための一定の限界を示す。
提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
論文 参考訳(メタデータ) (2024-09-12T12:34:29Z) - ESOD: Efficient Small Object Detection on High-Resolution Images [36.80623357577051]
小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化される。
画像の非対象背景領域において、大量の特徴抽出計算を無駄にする。
本稿では,検出器のバックボーンを再利用して,特徴レベルのオブジェクト探索とパッチスライシングを行う方法を提案する。
論文 参考訳(メタデータ) (2024-07-23T12:21:23Z) - Looking for Tiny Defects via Forward-Backward Feature Transfer [12.442574943138794]
そこで本研究では,従来の高解像度画像と地中トラスマスクの手法を評価する新しいベンチマークを提案する。
私たちのベンチマークには、欠陥サイズに関する堅牢性をキャプチャするメトリクスが含まれています。
提案手法は,欠陥サイズに対する高いロバスト性,高速動作,最先端セグメンテーション性能を特徴とする。
論文 参考訳(メタデータ) (2024-07-04T17:59:26Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。
提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文 参考訳(メタデータ) (2023-02-25T05:29:45Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。