論文の概要: Benchmarking Detection Transfer Learning with Vision Transformers
- arxiv url: http://arxiv.org/abs/2111.11429v1
- Date: Mon, 22 Nov 2021 18:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 17:14:15.429519
- Title: Benchmarking Detection Transfer Learning with Vision Transformers
- Title(参考訳): 視覚トランスフォーマーを用いたベンチマーク検出転送学習
- Authors: Yanghao Li, Saining Xie, Xinlei Chen, Piotr Dollar, Kaiming He, Ross
Girshick
- Abstract要約: オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 60.97703494764904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection is a central downstream task used to test if pre-trained
network parameters confer benefits, such as improved accuracy or training
speed. The complexity of object detection methods can make this benchmarking
non-trivial when new architectures, such as Vision Transformer (ViT) models,
arrive. These difficulties (e.g., architectural incompatibility, slow training,
high memory consumption, unknown training formulae, etc.) have prevented recent
studies from benchmarking detection transfer learning with standard ViT models.
In this paper, we present training techniques that overcome these challenges,
enabling the use of standard ViT models as the backbone of Mask R-CNN. These
tools facilitate the primary goal of our study: we compare five ViT
initializations, including recent state-of-the-art self-supervised learning
methods, supervised initialization, and a strong random initialization
baseline. Our results show that recent masking-based unsupervised learning
methods may, for the first time, provide convincing transfer learning
improvements on COCO, increasing box AP up to 4% (absolute) over supervised and
prior self-supervised pre-training methods. Moreover, these masking-based
initializations scale better, with the improvement growing as model size
increases.
- Abstract(参考訳): オブジェクト検出は、トレーニング済みのネットワークパラメータが、精度の向上やトレーニング速度などのメリットを優先するかどうかをテストするために使用される中央ダウンストリームタスクである。
オブジェクト検出手法の複雑さにより、ViT(Vision Transformer)モデルのような新しいアーキテクチャが登場すると、このベンチマークは簡単ではない。
これらの困難(アーキテクチャの不整合性、遅いトレーニング、高いメモリ消費、未知のトレーニング公式など)は、最近の研究で標準のViTモデルによる検出転送学習のベンチマークを妨げている。
本稿では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして使用できるトレーニング手法を提案する。
これらのツールは、最近の最先端の自己教師付き学習手法、教師付き初期化、強いランダム初期化ベースラインを含む5つのViT初期化を比較し、研究の第一の目標を導いた。
その結果,最近のマスキングによる教師なし学習手法は,COCOにおける説得力のある伝達学習改善を初めて実現し,教師付きおよび事前教師付き事前学習法に比べて,ボックスAPを4%(絶対)増加させる可能性が示唆された。
さらに、これらのマスキングベースの初期化は、モデルのサイズが大きくなるにつれて改善される。
関連論文リスト
- Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Semantically-Shifted Incremental Adapter-Tuning is A Continual ViTransformer [44.10678347943115]
クラスインクリメンタルラーニング(CIL)は、モデルが破滅的な忘れを克服しつつ、新しいクラスを継続的に学習できるようにすることを目的としている。
本稿では,連続学習の文脈において,異なるパラメータ効率チューニング(PET)手法を再検討する。
適応チューニングは,各学習セッションにおいてパラメータ拡張がなくても,プロンプトベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-29T05:23:12Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency [7.940705941237998]
自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。
私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2022-06-16T14:46:10Z) - Gradient-Based Adversarial Training on Transformer Networks for
Detecting Check-Worthy Factual Claims [3.7543966923106438]
本稿では,最初の逆正則変換型クレームスポッタモデルを提案する。
現在の最先端モデルよりもF1スコアが4.70ポイント向上した。
本稿では,変換器モデルに逆学習を適用する手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。