論文の概要: Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer
- arxiv url: http://arxiv.org/abs/2001.01600v2
- Date: Sat, 8 Oct 2022 12:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 02:37:02.951607
- Title: Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer
- Title(参考訳): 空間認識マッチングとクロス・トランスフォーマーによるファウショット学習の改善
- Authors: Hongguang Zhang, Philip H. S. Torr, Piotr Koniusz
- Abstract要約: 数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
- 参考スコア(独自算出の注目度): 116.46533207849619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current few-shot learning models capture visual object relations in the
so-called meta-learning setting under a fixed-resolution input. However, such
models have a limited generalization ability under the scale and location
mismatch between objects, as only few samples from target classes are provided.
Therefore, the lack of a mechanism to match the scale and location between
pairs of compared images leads to the performance degradation. The importance
of image contents varies across coarse-to-fine scales depending on the object
and its class label, e.g., generic objects and scenes rely on their global
appearance while fine-grained objects rely more on their localized visual
patterns. In this paper, we study the impact of scale and location mismatch in
the few-shot learning scenario, and propose a novel Spatially-aware Matching
(SM) scheme to effectively perform matching across multiple scales and
locations, and learn image relations by giving the highest weights to the best
matching pairs. The SM is trained to activate the most related locations and
scales between support and query data. We apply and evaluate SM on various
few-shot learning models and backbones for comprehensive evaluations.
Furthermore, we leverage an auxiliary self-supervisory discriminator to
train/predict the spatial- and scale-level index of feature vectors we use.
Finally, we develop a novel transformer-based pipeline to exploit self- and
cross-attention in a spatially-aware matching process. Our proposed design is
orthogonal to the choice of backbone and/or comparator.
- Abstract(参考訳): 現在の数ショット学習モデルは、固定解像度入力の下でいわゆるメタラーニング設定における視覚オブジェクトの関係をキャプチャする。
しかし、そのようなモデルは、対象クラスからのサンプルが少ないため、スケールとオブジェクト間の位置ミスマッチの下での一般化能力に制限がある。
したがって、比較画像の対間のスケールと位置を一致させるメカニズムが欠如しているため、性能が低下する。
画像コンテンツの重要性は、オブジェクトとそのクラスラベルによって異なる。ジェネリックオブジェクトやシーンは、そのグローバルな外観に依存しているが、きめ細かいオブジェクトは、よりローカライズされたビジュアルパターンに依存している。
そこで,本稿では,数発学習シナリオにおけるスケールと位置ミスマッチの影響について検討し,複数のスケールと位置のマッチングを効果的に行うための空間認識マッチング(sm)スキームを提案し,最適なマッチングペアに最高重みを与えることで画像関係を学習する。
smは、サポートとクエリデータの間の最も関連する場所とスケールをアクティベートするように訓練される。
本研究は,様々なショット学習モデルとバックボーンにSMを適用し,総合的な評価を行う。
さらに、補助的な自己超越性判別器を用いて、使用する特徴ベクトルの空間的およびスケールレベルの指標を訓練・予測する。
最後に, 空間対応マッチングプロセスにおいて, 自己および相互接続を利用する新しい変圧器ベースのパイプラインを開発した。
提案する設計はbackboneおよび/またはcomparatorの選択と直交する。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Multi-scale Adaptive Task Attention Network for Few-Shot Learning [5.861206243996454]
少数ショット学習の目標は、ラベル付きサンプルの少ない未確認カテゴリを分類することである。
本稿では,マルチスケール適応タスク注意ネットワーク(MATANet)を提案する。
論文 参考訳(メタデータ) (2020-11-30T00:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。