論文の概要: Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency
- arxiv url: http://arxiv.org/abs/2206.08222v1
- Date: Thu, 16 Jun 2022 14:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 22:12:13.435800
- Title: Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency
- Title(参考訳): 意識依存型マスキング一貫性による自己監督型視覚変換器の適応
- Authors: Viraj Prabhu, Sriram Yenamandra, Aaditya Singh, Judy Hoffman
- Abstract要約: 自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。
私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
- 参考スコア(独自算出の注目度): 7.940705941237998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual domain adaptation (DA) seeks to transfer trained models to unseen,
unlabeled domains across distribution shift, but approaches typically focus on
adapting convolutional neural network architectures initialized with supervised
ImageNet representations. In this work, we shift focus to adapting modern
architectures for object recognition -- the increasingly popular Vision
Transformer (ViT) -- and modern pretraining based on self-supervised learning
(SSL). Inspired by the design of recent SSL approaches based on learning from
partial image inputs generated via masking or cropping -- either by learning to
predict the missing pixels, or learning representational invariances to such
augmentations -- we propose PACMAC, a simple two-stage adaptation algorithm for
self-supervised ViTs. PACMAC first performs in-domain SSL on pooled source and
target data to learn task-discriminative features, and then probes the model's
predictive consistency across a set of partial target inputs generated via a
novel attention-conditioned masking strategy, to identify reliable candidates
for self-training. Our simple approach leads to consistent performance gains
over competing methods that use ViTs and self-supervised initializations on
standard object recognition benchmarks. Code available at
https://github.com/virajprabhu/PACMAC
- Abstract(参考訳): ビジュアルドメイン適応(DA)は、トレーニングされたモデルを、分散シフト全体にわたって見えなくラベル付けされていないドメインに転送することを目指しているが、一般的には、教師付きImageNet表現で初期化される畳み込みニューラルネットワークアーキテクチャの適応に重点を置いている。
本研究では,オブジェクト認識のための現代的アーキテクチャ – ますます普及しているビジョントランスフォーマ(vit) – と,自己教師付き学習(ssl)に基づく近代的事前トレーニングに重点を移す。
マスクやトリミングによって生成された部分的なイメージインプットから学ぶこと – 欠落したピクセルの予測を学ぶこと,あるいはそのような拡張に対する表現的不変性を学ぶこと – に基づいて,最近のSSLアプローチの設計に触発された我々は,自己管理型VTのためのシンプルな2段階適応アルゴリズムであるPACMACを提案する。
PACMACはまず、プールされたソースとターゲットデータ上でドメイン内SSLを実行し、タスクの識別的特徴を学習し、次に、新しい注意条件付きマスキング戦略によって生成された部分的なターゲット入力のセット間でモデルの予測一貫性を探索し、自己学習の信頼できる候補を特定する。
我々の単純なアプローチは、標準オブジェクト認識ベンチマーク上でViTと自己教師付き初期化を使用する競合メソッドよりも一貫したパフォーマンス向上をもたらす。
https://github.com/virajprabhu/PACMACで利用可能なコード
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。