論文の概要: CrossTransformers: spatially-aware few-shot transfer
- arxiv url: http://arxiv.org/abs/2007.11498v5
- Date: Wed, 17 Feb 2021 18:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 23:07:09.861333
- Title: CrossTransformers: spatially-aware few-shot transfer
- Title(参考訳): CrossTransformers:空間的に認識された数ショット転送
- Authors: Carl Doersch, Ankush Gupta, Andrew Zisserman
- Abstract要約: 非常に少ないデータを持つ新しいタスクを考えると、現代の視覚システムは驚くほど急速に低下する。
現代の視覚システムを支えるニューラルネットワーク表現が、どのようにして監督の崩壊にさらされているかを示す。
そこで我々は,伝達を良くする汎用的な機能を促進するために,自己指導型学習を提案する。
- 参考スコア(独自算出の注目度): 92.33252608837947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given new tasks with very little data$-$such as new classes in a
classification problem or a domain shift in the input$-$performance of modern
vision systems degrades remarkably quickly. In this work, we illustrate how the
neural network representations which underpin modern vision systems are subject
to supervision collapse, whereby they lose any information that is not
necessary for performing the training task, including information that may be
necessary for transfer to new tasks or domains. We then propose two methods to
mitigate this problem. First, we employ self-supervised learning to encourage
general-purpose features that transfer better. Second, we propose a novel
Transformer based neural network architecture called CrossTransformers, which
can take a small number of labeled images and an unlabeled query, find coarse
spatial correspondence between the query and the labeled images, and then infer
class membership by computing distances between spatially-corresponding
features. The result is a classifier that is more robust to task and domain
shift, which we demonstrate via state-of-the-art performance on Meta-Dataset, a
recent dataset for evaluating transfer from ImageNet to many other vision
datasets.
- Abstract(参考訳): 分類問題における新しいクラスや、近代視覚システムの入力$-$パフォーマンスにおけるドメインシフトのような、非常に小さなデータ$-$のタスクが急速に低下する。
本稿では,現在のビジョンシステムを支えるニューラルネットワーク表現が,新たなタスクやドメインへの転送に必要な情報を含む,トレーニングタスクを実行する上で不要な情報を失うことによって,管理の崩壊を招いていることを示す。
次にこの問題を軽減する2つの方法を提案する。
まず, 自己指導型学習を用いて, 伝達の促進を図る。
第2に,少数のラベル付き画像とラベル付きクエリを抽出し,クエリとラベル付き画像との粗い空間対応を見つけ,空間対応特徴間の距離を計算することによってクラスメンバシップを推論する,Cross Transformersという新しいニューラルネットワークアーキテクチャを提案する。
その結果、タスクやドメインシフトに対してより堅牢な分類器となり、画像Netから他の多くのビジョンデータセットへの転送を評価する最新のデータセットであるMeta-Dataset上で、最先端のパフォーマンスを実演する。
関連論文リスト
- GoogLe2Net: Going Transverse with Convolutions [0.0]
本稿では,GoogLe2Netと呼ばれる新しいCNNアーキテクチャを提案する。
ResFRI(Reslit Feature Reutilization Inception)またはSplit-ResFRI(Split Feature Reutilization Inception)から構成される。
当社のGoogLe2Netは、畳み込みレイヤのグループによってキャプチャされた情報を再利用し、きめ細かいレベルでマルチスケールの機能を表現することができます。
論文 参考訳(メタデータ) (2023-01-01T15:16:10Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Feature Representation Learning for Unsupervised Cross-domain Image
Retrieval [73.3152060987961]
現在の教師付きクロスドメイン画像検索法は優れた性能が得られる。
データ収集とラベリングのコストは、実際のアプリケーションにおける実践的なデプロイにおいて、難易度の高い障壁を課します。
本稿では,クラス意味認識機能抽出を支援するために,クラスタ単位のコントラスト学習機構を提案する。
論文 参考訳(メタデータ) (2022-07-20T07:52:14Z) - Deep transfer learning for image classification: a survey [4.590533239391236]
画像分類のベストプラクティスは、大量のラベル付きデータに基づいて大きな深層モデルをトレーニングできることである。
これらのシナリオでは、トランスファーラーニングはパフォーマンスを改善するのに役立つ。
画像分類におけるトランスファーラーニングの適用の新たな分類法を提案する。
論文 参考訳(メタデータ) (2022-05-20T00:03:39Z) - Evolving Architectures with Gradient Misalignment toward Low Adversarial
Transferability [4.415977307120616]
本稿では,神経進化を利用してネットワークアーキテクチャを進化させるアーキテクチャ探索フレームワークを提案する。
実験の結果,提案手法は4つの標準ネットワークからの転送可能性を低減するアーキテクチャの発見に成功していることがわかった。
さらに、勾配のずれをトレーニングした進化的ネットワークは、勾配のずれをトレーニングした標準ネットワークと比較して、転送可能性を大幅に低下させる。
論文 参考訳(メタデータ) (2021-09-13T12:41:53Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。