論文の概要: Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR
- arxiv url: http://arxiv.org/abs/2303.13779v1
- Date: Fri, 24 Mar 2023 03:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:55:12.996098
- Title: Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR
- Title(参考訳): より高精細なSBIRの爆発写真
- Authors: Aneeshan Sain, Ayan Kumar Bhunia, Subhadeep Koley, Pinaki Nath
Chowdhury, Soumitri Chattopadhyay, Tao Xiang, Yi-Zhe Song
- Abstract要約: 本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
- 参考スコア(独自算出の注目度): 103.51937218213774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper advances the fine-grained sketch-based image retrieval (FG-SBIR)
literature by putting forward a strong baseline that overshoots prior
state-of-the-arts by ~11%. This is not via complicated design though, but by
addressing two critical issues facing the community (i) the gold standard
triplet loss does not enforce holistic latent space geometry, and (ii) there
are never enough sketches to train a high accuracy model. For the former, we
propose a simple modification to the standard triplet loss, that explicitly
enforces separation amongst photos/sketch instances. For the latter, we put
forward a novel knowledge distillation module can leverage photo data for model
training. Both modules are then plugged into a novel plug-n-playable training
paradigm that allows for more stable training. More specifically, for (i) we
employ an intra-modal triplet loss amongst sketches to bring sketches of the
same instance closer from others, and one more amongst photos to push away
different photo instances while bringing closer a structurally augmented
version of the same photo (offering a gain of ~4-6%). To tackle (ii), we first
pre-train a teacher on the large set of unlabelled photos over the
aforementioned intra-modal photo triplet loss. Then we distill the contextual
similarity present amongst the instances in the teacher's embedding space to
that in the student's embedding space, by matching the distribution over
inter-feature distances of respective samples in both embedding spaces
(delivering a further gain of ~4-5%). Apart from outperforming prior arts
significantly, our model also yields satisfactory results on generalising to
new classes. Project page: https://aneeshan95.github.io/Sketch_PVT/
- Abstract(参考訳): 本稿では, 先行技術を11%オーバーシュートする強力なベースラインを提示することで, きめ細かなスケッチベース画像検索(FG-SBIR)を推し進める。
これは複雑な設計ではなく、コミュニティが直面している2つの重要な問題に対処することで
(i)金標準三重項損失は、全体論的潜在空間幾何学を強制せず、
(ii)精度の高いモデルを訓練するだけのスケッチは決して存在しない。
前者に対しては、写真/スケッチインスタンス間の分離を明示的に強制する標準三重項損失の簡単な修正を提案する。
後者については,モデル学習に写真データを活用する新たな知識蒸留モジュールを提案する。
どちらのモジュールもプラグイン可能な新しいトレーニングパラダイムにプラグインされ、より安定したトレーニングが可能になる。
具体的には
(i)スケッチ間でのモダル内トリプルトロスを利用して、同一のインスタンスのスケッチを他と近づき、さらに1枚写真間で異なる写真インスタンスをプッシュし、同じ写真の構造的に拡張されたバージョン(約4~6%)を近付けます。
取り組み方
(ii) 前述したモーダル写真三重項損失に対して,教師がラベルなしの写真の大規模なセットを事前学習した。
次に,両組込み空間における各サンプルの特徴間距離の分布を一致させることで,教師の組込み空間のインスタンス間の文脈的類似性を生徒の組込み空間のそれと比較する(さらに4~5%の利得を得る)。
先行技術の成績を著しく上回るだけでなく,新しいクラスへの一般化にも満足のいく結果をもたらしている。
プロジェクトページ: https://aneeshan95.github.io/Sketch_PVT/
関連論文リスト
- Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Active Learning for Fine-Grained Sketch-Based Image Retrieval [1.994307489466967]
フリーハンドスケッチによる写真検索能力は、きめ細かなスケッチベース画像検索(FG-SBIR)の可能性を強調している。
本稿では,写真スケッチ作成の必要性を大幅に軽減する,新しい能動的学習サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:07:14Z) - A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation [3.364554138758565]
SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:41:04Z) - CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained
or Not [109.69076457732632]
ゼロショットスケッチに基づく画像検索(ZS-SBIR)におけるCLIPの利用
私たちはこのシナジーを達成するのにいかに最適かという新しいデザインを提唱した。
これまでの最先端技術よりも26.9%の領域で顕著なパフォーマンス向上が観察された。
論文 参考訳(メタデータ) (2023-03-23T17:02:00Z) - Adaptive Fine-Grained Sketch-Based Image Retrieval [100.90633284767205]
最近のファイングレード・スケッチに基づく画像検索は、モデルから新しいカテゴリへの一般化へとシフトしている。
実世界のアプリケーションでは、トレーニングされたFG-SBIRモデルは、新しいカテゴリと異なる人間のスケッチラーの両方に適用されることが多い。
モデルに依存しないメタラーニング(MAML)に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-04T21:07:20Z) - Sketch3T: Test-Time Training for Zero-Shot SBIR [106.59164595640704]
ゼロショットのスケッチに基づく画像検索は、通常、未確認のカテゴリのように訓練されたモデルを適用するように要求する。
我々は、ZS-SBIRを拡張して、両方のカテゴリとスケッチ分布に転送するよう求めます。
私たちの重要な貢献は、ひとつのスケッチを使って適応できるテスト時のトレーニングパラダイムです。
論文 参考訳(メタデータ) (2022-03-28T12:44:49Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。