Fugu-MT 論文翻訳(概要): Compact and Effective Representations for Sketch-based Image Retrieval

論文の概要: Compact and Effective Representations for Sketch-based Image Retrieval

arxiv url: http://arxiv.org/abs/2104.10278v1
Date: Tue, 20 Apr 2021 22:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-22 14:27:22.767406
Title: Compact and Effective Representations for Sketch-based Image Retrieval
Title（参考訳）: スケッチに基づく画像検索のためのコンパクトで効果的な表現
Authors: Pablo Torres and Jose M. Saavedra
Abstract要約: 本稿では,スケッチベース画像検索の文脈において,コンパクト組込み生成手法の評価結果の相違について述べる。近年の非監督型局所位相保存次元削減法UMAPは,我々の要求に適合し,優れた性能を示す。 UMAPにより、16バイトの特徴ベクトルが精度を35%以上向上させることができることを示しています。
参考スコア（独自算出の注目度）: 3.274290296343038
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sketch-based image retrieval (SBIR) has undergone an increasing interest in the community of computer vision bringing high impact in real applications. For instance, SBIR brings an increased benefit to eCommerce search engines because it allows users to formulate a query just by drawing what they need to buy. However, current methods showing high precision in retrieval work in a high dimensional space, which negatively affects aspects like memory consumption and time processing. Although some authors have also proposed compact representations, these drastically degrade the performance in a low dimension. Therefore in this work, we present different results of evaluating methods for producing compact embeddings in the context of sketch-based image retrieval. Our main interest is in strategies aiming to keep the local structure of the original space. The recent unsupervised local-topology preserving dimension reduction method UMAP fits our requirements and shows outstanding performance, improving even the precision achieved by SOTA methods. We evaluate six methods in two different datasets. We use Flickr15K and eCommerce datasets; the latter is another contribution of this work. We show that UMAP allows us to have feature vectors of 16 bytes improving precision by more than 35%.
Abstract（参考訳）: スケッチベースの画像検索(SBIR)は、コンピュータビジョンのコミュニティへの関心が高まっ、実際のアプリケーションに大きな影響を与えている。たとえばSBIRは、ユーザが何を買うかを描くだけで、クエリを定式化できるので、eコマース検索エンジンの利点が増す。しかし,高次元空間における検索の精度を示す現在の手法は,メモリ消費や時間処理といった側面に悪影響を及ぼす。一部の著者はコンパクト表現も提案しているが、これらは低次元での性能を劇的に低下させた。そこで本研究では,スケッチベース画像検索の文脈において,コンパクトな埋め込みを生成するための異なる手法の評価結果を示す。我々の主な関心は、元の空間の局所的な構造を維持する戦略である。最近の非教師付き局所位相保存次元減少法UMAPは,我々の要求に適合し,優れた性能を示し,SOTA法による精度も向上した。 2つの異なるデータセットで6つの手法を評価する。私たちはflickr15kとeコマースデータセットを使っています。 umapによって、16バイトのフィーチャーベクターが35%以上精度が向上することを示した。

関連論文リスト

ImLoc: Revisiting Visual Localization with Image-based Representation [61.282162006394934]
本稿では,各画像に推定深度マップを付加して幾何学的構造を捉えることを提案する。この表現は構築と維持が容易であるが、挑戦的な条件下では高い精度を達成する。提案手法は,各種標準ベンチマークにおける新しい最先端の精度を実現し,既存のメモリ効率を同等のマップサイズで向上させる。
論文参考訳（メタデータ） (2026-01-07T18:51:51Z)
A Resource-Efficient Training Framework for Remote Sensing Text--Image Retrieval [5.831764081074079]
RSTIRのための計算とメモリ効率の検索フレームワークを提案する。トレーニングメモリ使用量を削減するため,Focus-Adapterモジュールを提案する。提案手法は, メモリ消費を49%削減し, トレーニング中のデータスループットを1.4倍に向上させる。
論文参考訳（メタデータ） (2025-01-18T02:51:43Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
The Bare Necessities: Designing Simple, Effective Open-Vocabulary Scene Graphs [16.600165443997433]
3次元オープンボキャブラリシーングラフ法は, エンボディエージェントの有望な地図表現である。一般的なシーングラフフレームワークを提案し,画像前処理,特徴融合,特徴選択に着目した3つの研究を行う。
論文参考訳（メタデータ） (2024-12-02T14:29:31Z)
Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-10-09T16:05:16Z)
Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms [1.1557852082644071]
少数の分類の文脈において、ゴールは、限られた数のサンプルを使用して分類器を訓練することである。伝統的なメートル法は、この目的を達成するための一定の限界を示す。提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
論文参考訳（メタデータ） (2024-09-12T12:34:29Z)
ESOD: Efficient Small Object Detection on High-Resolution Images [36.80623357577051]
小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化される。画像の非対象背景領域において、大量の特徴抽出計算を無駄にする。本稿では,検出器のバックボーンを再利用して,特徴レベルのオブジェクト探索とパッチスライシングを行う方法を提案する。
論文参考訳（メタデータ） (2024-07-23T12:21:23Z)
Looking for Tiny Defects via Forward-Backward Feature Transfer [12.442574943138794]
そこで本研究では,従来の高解像度画像と地中トラスマスクの手法を評価する新しいベンチマークを提案する。私たちのベンチマークには、欠陥サイズに関する堅牢性をキャプチャするメトリクスが含まれています。提案手法は,欠陥サイズに対する高いロバスト性,高速動作,最先端セグメンテーション性能を特徴とする。
論文参考訳（メタデータ） (2024-07-04T17:59:26Z)
SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。 SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文参考訳（メタデータ） (2024-04-29T23:26:30Z)
LoLep: Single-View View Synthesis with Locally-Learned Planes and Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。 MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文参考訳（メタデータ） (2023-07-23T03:38:55Z)
Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文参考訳（メタデータ） (2023-02-25T05:29:45Z)
{\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。 muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文参考訳（メタデータ） (2022-11-23T11:26:24Z)
Asymmetric Learned Image Compression with Multi-Scale Residual Block, Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-21T09:34:29Z)
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。デュアルエンコーダは検索スケールとして魅力的です視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文参考訳（メタデータ） (2021-03-30T17:57:08Z)
KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文参考訳（メタデータ） (2020-10-04T19:23:33Z)
Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文参考訳（メタデータ） (2020-03-03T15:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。