論文の概要: Compatibility-aware Heterogeneous Visual Search
- arxiv url: http://arxiv.org/abs/2105.06047v1
- Date: Thu, 13 May 2021 02:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:12:17.063498
- Title: Compatibility-aware Heterogeneous Visual Search
- Title(参考訳): 互換性を考慮した異種視覚検索
- Authors: Rahul Duggal, Hao Zhou, Shuo Yang, Yuanjun Xiong, Wei Xia, Zhuowen Tu,
Stefano Soatto
- Abstract要約: 既存のシステムは、同じ埋め込みモデルを使用して、クエリとギャラリーイメージの表現(埋め込み)を計算します。
1つは埋め込みを計算する各モデルのパラメータを変更し、もう1つは埋め込みを計算するアーキテクチャを変更して実行します。
最大埋め込みモデル(パラゴン)を用いた通常の(均一な)ビジュアルサーチと比較して,CMP-NASは80倍,23倍のコスト削減を実現している。
- 参考スコア(独自算出の注目度): 93.90831195353333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of visual search under resource constraints. Existing
systems use the same embedding model to compute representations (embeddings)
for the query and gallery images. Such systems inherently face a hard
accuracy-efficiency trade-off: the embedding model needs to be large enough to
ensure high accuracy, yet small enough to enable query-embedding computation on
resource-constrained platforms. This trade-off could be mitigated if gallery
embeddings are generated from a large model and query embeddings are extracted
using a compact model. The key to building such a system is to ensure
representation compatibility between the query and gallery models. In this
paper, we address two forms of compatibility: One enforced by modifying the
parameters of each model that computes the embeddings. The other by modifying
the architectures that compute the embeddings, leading to compatibility-aware
neural architecture search (CMP-NAS). We test CMP-NAS on challenging retrieval
tasks for fashion images (DeepFashion2), and face images (IJB-C). Compared to
ordinary (homogeneous) visual search using the largest embedding model
(paragon), CMP-NAS achieves 80-fold and 23-fold cost reduction while
maintaining accuracy within 0.3% and 1.6% of the paragon on DeepFashion2 and
IJB-C respectively.
- Abstract(参考訳): 我々はリソース制約下でビジュアル検索の問題に取り組む。
既存のシステムは、クエリとギャラリーイメージの表現(埋め込み)を計算するために同じ埋め込みモデルを使用している。
埋め込みモデルは高い精度を保証するのに十分な大きさでなければならないが、リソース制約のあるプラットフォームでのクエリ埋め込み計算を可能にするには十分小さい。
もしギャラリー埋め込みが大きなモデルから生成され、クエリ埋め込みがコンパクトモデルを使って抽出されたら、このトレードオフは軽減できる。
このようなシステムを構築するための鍵は、クエリとギャラリーモデルの表現互換性を確保することである。
本稿では,組込みを計算する各モデルのパラメータを変更することで実施される2種類の互換性について述べる。
もうひとつは、埋め込みを計算するアーキテクチャを変更することで、互換性を意識したニューラルアーキテクチャサーチ(CMP-NAS)につながる。
ファッション画像(DeepFashion2)と顔画像(IJB-C)の検索課題についてCMP-NASをテストする。
最大埋め込みモデル(パラゴン)を用いた通常の(均一な)ビジュアルサーチと比較して、CMP-NASは80倍と23倍のコスト削減を実現し、それぞれDeepFashion2とIJB-Cのパラゴンの0.3%と1.6%の精度を維持した。
関連論文リスト
- Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Asymmetric Image Retrieval with Cross Model Compatible Ensembles [4.86935886318034]
非対称検索は、顔認識や画像検索のようなリソース制約のあるアプリケーションに適したソリューションである。
本稿では, 知識蒸留に頼るのではなく, 埋め込み変換モデルを用いるアプローチを提案する。
クエリの計算予算を低く保ちながら,どのモデルよりも全体的な精度を向上する。
論文 参考訳(メタデータ) (2023-03-30T16:53:07Z) - TINYCD: A (Not So) Deep Learning Model For Change Detection [68.8204255655161]
変化検出(CD)の目的は、同じ領域で発生した変化を異なる時間に撮影された2つの画像を比較して検出することである。
ディープラーニングの分野での最近の進歩により、研究者はこの分野で卓越した成果を得られるようになった。
我々はTinyCDと呼ばれる新しいモデルを提案し、軽量かつ効果的であることを実証した。
論文 参考訳(メタデータ) (2022-07-26T19:28:48Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。