論文の概要: Transformers and CNNs both Beat Humans on SBIR
- arxiv url: http://arxiv.org/abs/2209.06629v1
- Date: Wed, 14 Sep 2022 13:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:02:28.725333
- Title: Transformers and CNNs both Beat Humans on SBIR
- Title(参考訳): トランスフォーマーとCNNがSBIRで人間に勝つ
- Authors: Omar Seddati, St\'ephane Dupont, Sa\"id Mahmoudi, Thierry Dutoit
- Abstract要約: スケッチベースの画像検索(SBIR)は、手書きのスケッチクエリのセマンティクスにマッチする自然画像(写真)を検索するタスクである。
本稿では,古典的三重項解について検討し,水平フリップ(モデルファイン)に対する持続的不変性が性能に悪影響を及ぼすことを示す。
我々の最良のモデルは、従来の最先端手法の46.2%と比較して、スケッチなベンチマークで62.25%(k = 1)のリコールを達成する。
- 参考スコア(独自算出の注目度): 3.364554138758565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sketch-based image retrieval (SBIR) is the task of retrieving natural images
(photos) that match the semantics and the spatial configuration of hand-drawn
sketch queries. The universality of sketches extends the scope of possible
applications and increases the demand for efficient SBIR solutions. In this
paper, we study classic triplet-based SBIR solutions and show that a persistent
invariance to horizontal flip (even after model finetuning) is harming
performance. To overcome this limitation, we propose several approaches and
evaluate in depth each of them to check their effectiveness. Our main
contributions are twofold: We propose and evaluate several intuitive
modifications to build SBIR solutions with better flip equivariance. We show
that vision transformers are more suited for the SBIR task, and that they
outperform CNNs with a large margin. We carried out numerous experiments and
introduce the first models to outperform human performance on a large-scale
SBIR benchmark (Sketchy). Our best model achieves a recall of 62.25% (at k = 1)
on the sketchy benchmark compared to previous state-of-the-art methods 46.2%.
- Abstract(参考訳): スケッチベースの画像検索(SBIR)は、手書きスケッチクエリのセマンティクスと空間的構成に一致する自然画像(写真)を検索するタスクである。
スケッチの普遍性はアプリケーションの範囲を広げ、効率的なSBIRソリューションの需要を増加させる。
本稿では,古典的三重項系SBIR法について検討し,水平フリップに対する持続的不変性が性能に悪影響を及ぼすことを示す。
この制限を克服するために,複数のアプローチを提案し,それぞれの有効性を深く評価する。
我々は、より優れたフリップ等価性を持つSBIRソリューションを構築するための直感的な修正をいくつか提案し、評価する。
我々は、視覚変換器がSBIRタスクに適しており、CNNよりも大きなマージンで優れていることを示す。
我々は,大規模sbirベンチマーク(sketchy)において,人間のパフォーマンスを上回る最初のモデルを紹介した。
我々の最良のモデルは、従来の最先端手法の46.2%と比較して、スケッチなベンチマークで62.25%(k = 1)のリコールを達成する。
関連論文リスト
- TrackFormers: In Search of Transformer-Based Particle Tracking for the High-Luminosity LHC Era [2.9052912091435923]
高エネルギー物理実験は、新しいイテレーション毎に複数倍のデータの増加に直面している。
このようなオーバーホールが必要なステップの1つは、粒子トラックの再構築、すなわち追跡のタスクである。
機械学習支援ソリューションは、大幅な改善が期待されている。
論文 参考訳(メタデータ) (2024-07-09T18:47:25Z) - Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.130745490934597]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいてターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
我々の方式はプラグアンドプレイであり、既存の教師付きCIRモデルと互換性がある。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers [7.89533262149443]
トランスフォーマーの自己注意は、2次計算の複雑さのために高い計算コストが伴う。
我々のベンチマークは、高解像度画像よりも、一般により大きなモデルを使用することの方が効率的であることを示している。
論文 参考訳(メタデータ) (2023-08-18T08:06:49Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation [3.364554138758565]
SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:41:04Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Blind Face Restoration: Benchmark Datasets and a Baseline Model [63.053331687284064]
Blind Face Restoration (BFR) は、対応する低品質 (LQ) 入力から高品質 (HQ) の顔画像を構築することを目的としている。
EDFace-Celeb-1M (BFR128) と EDFace-Celeb-150K (BFR512) と呼ばれる2つのブラインドフェイス復元ベンチマークデータセットを最初に合成する。
最先端の手法は、ブラー、ノイズ、低解像度、JPEG圧縮アーティファクト、それらの組み合わせ(完全な劣化)の5つの設定でベンチマークされる。
論文 参考訳(メタデータ) (2022-06-08T06:34:24Z) - Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and
Cycle Idempotence [76.93002743194974]
本稿では、任意の再スケーリング(アップスケーリングとダウンスケーリングの両方)を統一プロセスとして扱う方法を提案する。
提案モデルでは、アップスケーリングとダウンスケーリングを同時に学習し、双方向の任意のイメージ再スケーリングを実現する。
繰り返しにダウンスケーリング・アップスケーリング・サイクルが適用された場合, 復元精度が著しく低下することなく, サイクルイデオポテンス試験において堅牢であることが確認された。
論文 参考訳(メタデータ) (2022-03-02T07:42:15Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Boosting Randomized Smoothing with Variance Reduced Classifiers [4.110108749051657]
ランダム化平滑化(Randomized Smoothing, RS)のベースモデルとして, アンサンブルが特に適した選択である理由を考察する。
我々は、この選択を実証的に確認し、複数の設定でアート結果の状態を取得する。
論文 参考訳(メタデータ) (2021-06-13T08:40:27Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。