論文の概要: A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2305.18988v1
- Date: Tue, 30 May 2023 12:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:21:07.259049
- Title: A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation
- Title(参考訳): 効率的なSBIRモデルのレシピ: 相対的三重項損失とバッチ正規化と知識蒸留の組み合わせ
- Authors: Omar Seddati, Nathan Hubens, St\'ephane Dupont, Thierry Dutoit
- Abstract要約: SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
- 参考スコア(独自算出の注目度): 3.364554138758565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sketch-Based Image Retrieval (SBIR) is a crucial task in multimedia
retrieval, where the goal is to retrieve a set of images that match a given
sketch query. Researchers have already proposed several well-performing
solutions for this task, but most focus on enhancing embedding through
different approaches such as triplet loss, quadruplet loss, adding data
augmentation, and using edge extraction. In this work, we tackle the problem
from various angles. We start by examining the training data quality and show
some of its limitations. Then, we introduce a Relative Triplet Loss (RTL), an
adapted triplet loss to overcome those limitations through loss weighting based
on anchors similarity. Through a series of experiments, we demonstrate that
replacing a triplet loss with RTL outperforms previous state-of-the-art without
the need for any data augmentation. In addition, we demonstrate why batch
normalization is more suited for SBIR embeddings than l2-normalization and show
that it improves significantly the performance of our models. We further
investigate the capacity of models required for the photo and sketch domains
and demonstrate that the photo encoder requires a higher capacity than the
sketch encoder, which validates the hypothesis formulated in [34]. Then, we
propose a straightforward approach to train small models, such as ShuffleNetv2
[22] efficiently with a marginal loss of accuracy through knowledge
distillation. The same approach used with larger models enabled us to
outperform previous state-of-the-art results and achieve a recall of 62.38% at
k = 1 on The Sketchy Database [30].
- Abstract(参考訳): SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
研究者は、このタスクのためにいくつかの優れたソリューションを提案しているが、ほとんどはトリプレット損失、四重項損失、データ拡張の追加、エッジ抽出など、様々なアプローチによる埋め込み強化に重点を置いている。
本研究では,様々な角度からこの問題に取り組む。
まず、トレーニングデータの品質を調べ、いくつかの制限を示します。
次に, 相対三重項損失 (RTL) を導入し, アンカーの類似性に基づく損失重み付けにより, それらの制限を克服する。
一連の実験を通じて,rtlによるトリプルトロスの置き換えは,データ拡張を必要とせず,従来の最先端技術よりも優れていることを実証した。
さらに、バッチ正規化がl2正規化よりもsbir埋め込みに適している理由を実証し、モデルの性能を大幅に改善することを示す。
写真領域およびスケッチ領域に必要なモデルの容量をさらに調査し, [34] で定式化された仮説を検証するスケッチエンコーダよりも高い容量を必要とすることを示す。
そこで本研究では,ShuffleNetv2 [22] などの小型モデルを,知識蒸留による精度の限界損失で効率的に訓練する方法を提案する。
より大きなモデルで使われるのと同じアプローチで、以前の最先端の結果を上回り、スケッチデータベース[30]上でk = 1で62.38%のリコールを達成しました。
関連論文リスト
- Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.130745490934597]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいてターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
我々の方式はプラグアンドプレイであり、既存の教師付きCIRモデルと互換性がある。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization [0.9562145896371785]
本研究では,2次元画像領域と3次元LiDAR点の領域にコントラスト言語-画像事前学習を適用した。
提案手法は,視点画像のみを用いて,KITTI-360データセットの最先端リコール@1精度を22.4%向上させる。
また、モデルのゼロショット能力を実証し、トレーニングもせずにSOTAを8%上回りました。
論文 参考訳(メタデータ) (2023-12-27T17:23:57Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Transformers and CNNs both Beat Humans on SBIR [3.364554138758565]
スケッチベースの画像検索(SBIR)は、手書きのスケッチクエリのセマンティクスにマッチする自然画像(写真)を検索するタスクである。
本稿では,古典的三重項解について検討し,水平フリップ(モデルファイン)に対する持続的不変性が性能に悪影響を及ぼすことを示す。
我々の最良のモデルは、従来の最先端手法の46.2%と比較して、スケッチなベンチマークで62.25%(k = 1)のリコールを達成する。
論文 参考訳(メタデータ) (2022-09-14T13:28:37Z) - Towards Lightweight Super-Resolution with Dual Regression Learning [58.98801753555746]
深層ニューラルネットワークは、画像超解像(SR)タスクにおいて顕著な性能を示した。
SR問題は通常不適切な問題であり、既存の手法にはいくつかの制限がある。
本稿では、SRマッピングの可能な空間を削減するために、二重回帰学習方式を提案する。
論文 参考訳(メタデータ) (2022-07-16T12:46:10Z) - Stable Optimization for Large Vision Model Based Deep Image Prior in
Cone-Beam CT Reconstruction [6.558735319783205]
LVM(Large Vision Model)は、最近医療画像のタスクにおいて大きな可能性を実証した。
Deep Image Prior(DIP)は、トレーニングされていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。
スパースビューCBCTのためのフォワードモデルフリーDIPモデルの安定最適化法を提案する。
論文 参考訳(メタデータ) (2022-03-23T15:16:29Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。