論文の概要: Compact and Effective Representations for Sketch-based Image Retrieval
- arxiv url: http://arxiv.org/abs/2104.10278v1
- Date: Tue, 20 Apr 2021 22:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:27:22.767406
- Title: Compact and Effective Representations for Sketch-based Image Retrieval
- Title(参考訳): スケッチに基づく画像検索のためのコンパクトで効果的な表現
- Authors: Pablo Torres and Jose M. Saavedra
- Abstract要約: 本稿では,スケッチベース画像検索の文脈において,コンパクト組込み生成手法の評価結果の相違について述べる。
近年の非監督型局所位相保存次元削減法UMAPは,我々の要求に適合し,優れた性能を示す。
UMAPにより、16バイトの特徴ベクトルが精度を35%以上向上させることができることを示しています。
- 参考スコア(独自算出の注目度): 3.274290296343038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sketch-based image retrieval (SBIR) has undergone an increasing interest in
the community of computer vision bringing high impact in real applications. For
instance, SBIR brings an increased benefit to eCommerce search engines because
it allows users to formulate a query just by drawing what they need to buy.
However, current methods showing high precision in retrieval work in a high
dimensional space, which negatively affects aspects like memory consumption and
time processing. Although some authors have also proposed compact
representations, these drastically degrade the performance in a low dimension.
Therefore in this work, we present different results of evaluating methods for
producing compact embeddings in the context of sketch-based image retrieval.
Our main interest is in strategies aiming to keep the local structure of the
original space. The recent unsupervised local-topology preserving dimension
reduction method UMAP fits our requirements and shows outstanding performance,
improving even the precision achieved by SOTA methods. We evaluate six methods
in two different datasets. We use Flickr15K and eCommerce datasets; the latter
is another contribution of this work. We show that UMAP allows us to have
feature vectors of 16 bytes improving precision by more than 35%.
- Abstract(参考訳): スケッチベースの画像検索(SBIR)は、コンピュータビジョンのコミュニティへの関心が高まっ、実際のアプリケーションに大きな影響を与えている。
たとえばSBIRは、ユーザが何を買うかを描くだけで、クエリを定式化できるので、eコマース検索エンジンの利点が増す。
しかし,高次元空間における検索の精度を示す現在の手法は,メモリ消費や時間処理といった側面に悪影響を及ぼす。
一部の著者はコンパクト表現も提案しているが、これらは低次元での性能を劇的に低下させた。
そこで本研究では,スケッチベース画像検索の文脈において,コンパクトな埋め込みを生成するための異なる手法の評価結果を示す。
我々の主な関心は、元の空間の局所的な構造を維持する戦略である。
最近の非教師付き局所位相保存次元減少法UMAPは,我々の要求に適合し,優れた性能を示し,SOTA法による精度も向上した。
2つの異なるデータセットで6つの手法を評価する。
私たちはflickr15kとeコマースデータセットを使っています。
umapによって、16バイトのフィーチャーベクターが35%以上精度が向上することを示した。
関連論文リスト
- A Resource-Efficient Training Framework for Remote Sensing Text--Image Retrieval [5.831764081074079]
RSTIRのための計算とメモリ効率の検索フレームワークを提案する。
トレーニングメモリ使用量を削減するため,Focus-Adapterモジュールを提案する。
提案手法は, メモリ消費を49%削減し, トレーニング中のデータスループットを1.4倍に向上させる。
論文 参考訳(メタデータ) (2025-01-18T02:51:43Z) - Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。
本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。
実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-04T17:55:33Z) - The Bare Necessities: Designing Simple, Effective Open-Vocabulary Scene Graphs [16.600165443997433]
3次元オープンボキャブラリシーングラフ法は, エンボディエージェントの有望な地図表現である。
一般的なシーングラフフレームワークを提案し,画像前処理,特徴融合,特徴選択に着目した3つの研究を行う。
論文 参考訳(メタデータ) (2024-12-02T14:29:31Z) - Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - Looking for Tiny Defects via Forward-Backward Feature Transfer [12.442574943138794]
そこで本研究では,従来の高解像度画像と地中トラスマスクの手法を評価する新しいベンチマークを提案する。
私たちのベンチマークには、欠陥サイズに関する堅牢性をキャプチャするメトリクスが含まれています。
提案手法は,欠陥サイズに対する高いロバスト性,高速動作,最先端セグメンテーション性能を特徴とする。
論文 参考訳(メタデータ) (2024-07-04T17:59:26Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。
提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文 参考訳(メタデータ) (2023-02-25T05:29:45Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。