論文の概要: Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch
- arxiv url: http://arxiv.org/abs/2505.23763v1
- Date: Thu, 29 May 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.088892
- Title: Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch
- Title(参考訳): Sketch down the FLOPs: To toward Efficient Networks for Human Sketchs
- Authors: Aneeshan Sain, Subhajit Maity, Pinaki Nath Chowdhury, Subhadeep Koley, Ayan Kumar Bhunia, Yi-Zhe Song,
- Abstract要約: スケッチデータに特化して設計された効率的な推論についての研究はない。
私たちはまず、写真用に設計された既存の最先端の効率的な軽量モデルがスケッチで動かないことを実証する。
次に、スケッチデータに適応させるために、任意の光効率ネットワーク上で、プラグ・n・プレイ方式で機能するスケッチ特化コンポーネントを2つ提案する。
- 参考スコア(独自算出の注目度): 80.90808879991182
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As sketch research has collectively matured over time, its adaptation for at-mass commercialisation emerges on the immediate horizon. Despite an already mature research endeavour for photos, there is no research on the efficient inference specifically designed for sketch data. In this paper, we first demonstrate existing state-of-the-art efficient light-weight models designed for photos do not work on sketches. We then propose two sketch-specific components which work in a plug-n-play manner on any photo efficient network to adapt them to work on sketch data. We specifically chose fine-grained sketch-based image retrieval (FG-SBIR) as a demonstrator as the most recognised sketch problem with immediate commercial value. Technically speaking, we first propose a cross-modal knowledge distillation network to transfer existing photo efficient networks to be compatible with sketch, which brings down number of FLOPs and model parameters by 97.96% percent and 84.89% respectively. We then exploit the abstract trait of sketch to introduce a RL-based canvas selector that dynamically adjusts to the abstraction level which further cuts down number of FLOPs by two thirds. The end result is an overall reduction of 99.37% of FLOPs (from 40.18G to 0.254G) when compared with a full network, while retaining the accuracy (33.03% vs 32.77%) -- finally making an efficient network for the sparse sketch data that exhibit even fewer FLOPs than the best photo counterpart.
- Abstract(参考訳): スケッチ研究が徐々に成熟していくにつれて、大量商業化への適応がすぐに現れる。
写真に対する既に成熟した研究努力にもかかわらず、スケッチデータに特化して設計された効率的な推論についての研究は行われていない。
本稿では,写真用に設計された既存の最先端の軽量モデルについて,スケッチでは動作しないことを示す。
次に、スケッチデータに適応させるために、任意の光効率ネットワーク上で、プラグ・n・プレイ方式で機能するスケッチ特化コンポーネントを2つ提案する。
直近の商業価値で最も認識されたスケッチ問題として, きめ細かいスケッチベース画像検索(FG-SBIR)を選択した。
技術的に言えば,既存の写真効率ネットワークをスケッチに適合させるクロスモーダルな知識蒸留ネットワークを提案し,FLOPとモデルパラメータをそれぞれ97.96%,84.89%削減した。
次に、スケッチの抽象特性を利用してRLベースのキャンバスセレクタを導入し、抽象化レベルに動的に調整することで、FLOPの数を2/3削減する。
その結果、完全なネットワークと比較すると、全体のFLOPの99.37%(40.18Gから0.254G)が削減され、精度は33.03%対32.77%)となった。
関連論文リスト
- Active Learning for Fine-Grained Sketch-Based Image Retrieval [1.994307489466967]
フリーハンドスケッチによる写真検索能力は、きめ細かなスケッチベース画像検索(FG-SBIR)の可能性を強調している。
本稿では,写真スケッチ作成の必要性を大幅に軽減する,新しい能動的学習サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:07:14Z) - A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation [3.364554138758565]
SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:41:04Z) - CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained
or Not [109.69076457732632]
ゼロショットスケッチに基づく画像検索(ZS-SBIR)におけるCLIPの利用
私たちはこのシナジーを達成するのにいかに最適かという新しいデザインを提唱した。
これまでの最先端技術よりも26.9%の領域で顕著なパフォーマンス向上が観察された。
論文 参考訳(メタデータ) (2023-03-23T17:02:00Z) - Multi-granularity Association Learning Framework for on-the-fly
Fine-Grained Sketch-based Image Retrieval [7.797006835701767]
きめ細かいスケッチベース画像検索(FG-SBIR)は、与えられたクエリスケッチで特定の写真を取得する問題に対処する。
本研究では,最小のストローク数で対象写真を検索することを目的とした(不完全スケッチ)。
非完全スケッチの埋め込み空間をさらに最適化する多粒性関連学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-13T14:38:50Z) - Deep Facial Synthesis: A New Challenge [75.99659340231078]
まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。
第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。
第3に、FSGANという単純なFSSのベースラインを提示する。
論文 参考訳(メタデータ) (2021-12-31T13:19:21Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z) - Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image
Retrieval [203.2520862597357]
きめ細かいスケッチベースの画像検索(FG-SBIR)は、ユーザのクエリのスケッチから特定の写真インスタンスを検索する問題に対処する。
これらの課題に対処するため、従来のFG-SBIRフレームワークを再構築する。
ユーザが絵を描き始めるとすぐに検索を開始できるオンザフライ設計を提案する。
論文 参考訳(メタデータ) (2020-02-24T15:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。