論文の概要: Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers
- arxiv url: http://arxiv.org/abs/2210.08458v1
- Date: Sun, 16 Oct 2022 06:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:20:54.569643
- Title: Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers
- Title(参考訳): 自己教師付き視覚トランスフォーマーのための自己正規化逆観の学習
- Authors: Tao Tang, Changlin Li, Guangrun Wang, Kaicheng Yu, Xiaojun Chang,
Xiaodan Liang
- Abstract要約: 本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。
まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。
また、自己教師型学習のための強化政策探索空間も提示する。
- 参考スコア(独自算出の注目度): 105.89564687747134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic data augmentation (AutoAugment) strategies are indispensable in
supervised data-efficient training protocols of vision transformers, and have
led to state-of-the-art results in supervised learning. Despite the success,
its development and application on self-supervised vision transformers have
been hindered by several barriers, including the high search cost, the lack of
supervision, and the unsuitable search space. In this work, we propose
AutoView, a self-regularized adversarial AutoAugment method, to learn views for
self-supervised vision transformers, by addressing the above barriers. First,
we reduce the search cost of AutoView to nearly zero by learning views and
network parameters simultaneously in a single forward-backward step, minimizing
and maximizing the mutual information among different augmented views,
respectively. Then, to avoid information collapse caused by the lack of label
supervision, we propose a self-regularized loss term to guarantee the
information propagation. Additionally, we present a curated augmentation policy
search space for self-supervised learning, by modifying the generally used
search space designed for supervised learning. On ImageNet, our AutoView
achieves remarkable improvement over RandAug baseline (+10.2% k-NN accuracy),
and consistently outperforms sota manually tuned view policy by a clear margin
(up to +1.3% k-NN accuracy). Extensive experiments show that AutoView
pretraining also benefits downstream tasks (+1.2% mAcc on ADE20K Semantic
Segmentation and +2.8% mAP on revisited Oxford Image Retrieval benchmark) and
improves model robustness (+2.3% Top-1 Acc on ImageNet-A and +1.0% AUPR on
ImageNet-O). Code and models will be available at
https://github.com/Trent-tangtao/AutoView.
- Abstract(参考訳): 視覚変換器の教師付きデータ効率トレーニングプロトコルには,自動データ拡張(AutoAugmentation)戦略が不可欠であり,教師付き学習における最先端の成果につながっている。
その成功にもかかわらず、自己監督型視覚トランスフォーマーの開発と応用は、高い探索コスト、監督の欠如、不適切な探索空間などいくつかの障壁によって妨げられている。
本研究では,自己調整型対向型自動拡張方式であるAutoViewを提案し,上記の障壁に対処して自己監督型視覚変換器の視界を学習する。
まず、1つの前向きステップで同時にビューとネットワークパラメータを学習することでAutoViewの検索コストをほぼゼロにし、異なる拡張ビュー間の相互情報の最小化と最大化を行う。
そこで,ラベル管理の欠如による情報崩壊を回避するため,情報伝達を保証する自己正規化損失項を提案する。
さらに,教師付き学習のための汎用的な検索空間を変更することにより,自己教師付き学習のための拡張ポリシー検索空間を提案する。
ImageNetでは、我々のAutoViewはRandAugベースライン(+10.2% k-NN精度)よりも大幅に改善され、常にソータが調整したビューポリシーをクリアマージン(最大+1.3% k-NN精度)で上回っている。
大規模な実験により、AutoViewプレトレーニングは下流タスク(ADE20Kセマンティックセグメンテーションでは+1.2% mAcc、オックスフォード画像検索ベンチマークでは+2.8% mAP)にも効果があり、モデル堅牢性(ImageNet-Aでは+2.3% Top-1 Acc、ImageNet-Oでは+1.0% AUPR)が向上している。
コードとモデルはhttps://github.com/trent-tangtao/autoviewで入手できる。
関連論文リスト
- Cross-Camera Distracted Driver Classification through Feature Disentanglement and Contrastive Learning [13.613407983544427]
車両内のカメラ位置の変化に耐えられるような頑健なモデルを導入する。
我々のドライバ行動監視ネットワーク(DBMNet)は軽量なバックボーンに依存し、アンタングルメントモジュールを統合する。
100-Driverデータセットの夜間および夜間のサブセットで行った実験は、我々のアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-11-20T10:27:12Z) - Federated Self-Supervised Learning of Monocular Depth Estimators for
Autonomous Vehicles [0.0]
FedSCDepthは、単眼深度推定器の学習を可能にするために、フェデレーション学習とディープセルフスーパービジョンを組み合わせた新しい手法である。
提案手法は, 試験損失が0.13未満で, 平均1.5kのトレーニングステップしか必要とせず, ほぼ最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-07T14:54:02Z) - A Novel Driver Distraction Behavior Detection Method Based on
Self-supervised Learning with Masked Image Modeling [5.1680226874942985]
ドライバーの注意散らしは、毎年かなりの数の交通事故を引き起こし、経済的な損失と損失をもたらす。
ドライバの障害検出は、主に従来の畳み込みニューラルネットワーク(CNN)と教師あり学習法に依存している。
本稿では,運転者の気晴らし行動検出のためのマスク付き画像モデリングに基づく自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T10:53:32Z) - M$^2$DAR: Multi-View Multi-Scale Driver Action Recognition with Vision
Transformer [5.082919518353888]
本稿では,自然主義的運転行動認識と動画のローカライゼーションのためのマルチビュー・マルチスケールフレームワークを提案する。
本システムでは,マルチスケールトランスフォーマーに基づく動作認識ネットワークを特徴とし,頑健な階層表現を学習する。
論文 参考訳(メタデータ) (2023-05-13T02:38:15Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。