論文の概要: CASTing Your Model: Learning to Localize Improves Self-Supervised
Representations
- arxiv url: http://arxiv.org/abs/2012.04630v1
- Date: Tue, 8 Dec 2020 18:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 17:35:18.908649
- Title: CASTing Your Model: Learning to Localize Improves Self-Supervised
Representations
- Title(参考訳): モデルをキャスティングする: ローカライズへの学習が自己監督表現を改善する
- Authors: Ramprasaath R. Selvaraju, Karan Desai, Justin Johnson, Nikhil Naik
- Abstract要約: CAST(Contrastive Attention-supvised Tuning)を提案し,現在のSSLメソッドの限界を克服する。
CASTは、教師なしサリエンシマップを使用して作物をインテリジェントにサンプリングし、グラッド-CAMの注意喪失による接地監視を提供する。
COCOの実験では、CASTはシーンイメージのSSLメソッドで学んだ特徴を大幅に改善し、さらなる実験ではCAST訓練されたモデルが背景の変化に対してより堅牢であることを示しています。
- 参考スコア(独自算出の注目度): 18.950423334705558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised learning (SSL) have largely closed the gap
with supervised ImageNet pretraining. Despite their success these methods have
been primarily applied to unlabeled ImageNet images, and show marginal gains
when trained on larger sets of uncurated images. We hypothesize that current
SSL methods perform best on iconic images, and struggle on complex scene images
with many objects. Analyzing contrastive SSL methods shows that they have poor
visual grounding and receive poor supervisory signal when trained on scene
images. We propose Contrastive Attention-Supervised Tuning(CAST) to overcome
these limitations. CAST uses unsupervised saliency maps to intelligently sample
crops, and to provide grounding supervision via a Grad-CAM attention loss.
Experiments on COCO show that CAST significantly improves the features learned
by SSL methods on scene images, and further experiments show that CAST-trained
models are more robust to changes in backgrounds.
- Abstract(参考訳): 自己教師付き学習(SSL)の最近の進歩は、教師付きImageNet事前学習とのギャップを大きく埋めている。
彼らの成功にもかかわらず、これらの手法は主にラベルのないImageNet画像に適用され、未修正画像のより大きなセットで訓練された場合、限界的な利得を示す。
我々は、現在のSSLメソッドは、象徴的なイメージに最適であり、多くのオブジェクトを持つ複雑なシーンイメージに苦戦していると仮定する。
対照的なSSL手法を解析すると、視覚的接地が乏しく、シーンイメージで訓練すると監視信号が弱いことが分かる。
これらの制限を克服するために、コントラスト注意監督チューニング(CAST)を提案する。
CASTは、教師なしサリエンシマップを使用して作物をインテリジェントにサンプリングし、グラッド-CAMの注意喪失による接地監視を提供する。
COCOの実験では、CASTはシーンイメージ上のSSLメソッドによって得られた機能を著しく改善し、さらに実験により、CASTが学習したモデルは背景の変化に対してより堅牢であることが示されている。
関連論文リスト
- Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Improving Performance of Semi-Supervised Learning by Adversarial Attacks [1.675857332621569]
本稿では,最近のSSLアルゴリズムの性能向上を目的とした汎用フレームワークSCARを提案する。
セミスーパービジョンで事前学習したモデルを逆襲することにより、画像の分類の大幅な進歩が示される。
論文 参考訳(メタデータ) (2023-08-08T03:29:43Z) - Know Your Self-supervised Learning: A Survey on Image-based Generative
and Discriminative Training [2.2046235060588018]
自然言語処理(NLP)を目的とした自己教師型学習(SSL)は、大きな成功を収めている。
3年以内に、画像に焦点をあてた生成的で差別的なSSLのための100ドル以上のユニークな汎用フレームワークが提案された。
論文 参考訳(メタデータ) (2023-05-23T04:54:09Z) - ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving
Few-Shot Learning [16.859375666701]
我々は,新しい自己教師型空間規範タスク(ESPT)により,数発の学習目標を増強することを提案する。
ESPTの目的は、原エピソードと変換されたエピソードの間の局所的な空間的関係の一貫性を最大化することである。
ESPT法は,3つのメインステイ・ベンチマーク・データセットを用いた数ショット画像分類のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-26T04:52:08Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning [112.95742995816367]
FSFSLと呼ばれる新しい数発のスナップショット・ラーニング・セッティングを提案する。
FSFSLでは、ソースクラスとターゲットクラスの両方に限られたトレーニングサンプルがある。
また,無関係な画像を削除するためのグラフ畳み込みネットワーク (GCN) ベースのラベルデノイング (LDN) 手法を提案する。
論文 参考訳(メタデータ) (2020-02-28T10:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。