論文の概要: A Survey of the Self Supervised Learning Mechanisms for Vision Transformers
- arxiv url: http://arxiv.org/abs/2408.17059v5
- Date: Tue, 10 Jun 2025 05:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.753134
- Title: A Survey of the Self Supervised Learning Mechanisms for Vision Transformers
- Title(参考訳): 視覚変換器の自己監督学習メカニズムの検討
- Authors: Asifullah Khan, Anabia Sohail, Mustansar Fiaz, Mehdi Hassan, Tariq Habib Afridi, Sibghat Ullah Marwat, Farzeen Munir, Safdar Ali, Hannan Naseem, Muhammad Zaigham Zaheer, Kamran Ali, Tangina Sultana, Ziaurrehman Tanoli, Naeem Akhter,
- Abstract要約: 視覚変換器(ViT)は近年,コンピュータビジョンタスクにおいて顕著な性能を示した。
この課題に応えて、自己教師型学習(SSL)が有望なパラダイムとして登場した。
本稿では,その表現と事前学習タスクに基づいてSSLテクニックを分類する包括的分類法を提案する。
- 参考スコア(独自算出の注目度): 5.152455218955949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have recently demonstrated remarkable performance in computer vision tasks. However, their parameter-intensive nature and reliance on large amounts of data for effective performance have shifted the focus from traditional human-annotated labels to unsupervised learning and pretraining strategies that uncover hidden structures within the data. In response to this challenge, self-supervised learning (SSL) has emerged as a promising paradigm. SSL leverages inherent relationships within the data itself as a form of supervision, eliminating the need for manual labeling and offering a more scalable and resource-efficient alternative for model training. Given these advantages, it is imperative to explore the integration of SSL techniques with ViTs, particularly in scenarios with limited labeled data. Inspired by this evolving trend, this survey aims to systematically review SSL mechanisms tailored for ViTs. We propose a comprehensive taxonomy to classify SSL techniques based on their representations and pre-training tasks. Additionally, we discuss the motivations behind SSL, review prominent pre-training tasks, and highlight advancements and challenges in this field. Furthermore, we conduct a comparative analysis of various SSL methods designed for ViTs, evaluating their strengths, limitations, and applicability to different scenarios.
- Abstract(参考訳): 視覚変換器(ViT)は近年,コンピュータビジョンタスクにおいて顕著な性能を示した。
しかし、そのパラメータ集約的な性質と、効果的なパフォーマンスのための大量のデータへの依存は、従来の人間の注釈付きラベルから、データの中に隠された構造を明らかにする教師なしの学習と事前学習戦略へと焦点を移している。
この課題に応えて、自己教師型学習(SSL)が有望なパラダイムとして登場した。
SSLはデータ自体の固有の関係を監視の形式として活用し、手動ラベリングの必要性を排除し、モデルトレーニングのよりスケーラブルでリソース効率の良い代替手段を提供する。
これらの利点を考えれば、特にラベル付きデータに制限のあるシナリオにおいて、SSL技術とViTとの統合を検討することが不可欠である。
この進化傾向にインスパイアされたこの調査は、ViTに適したSSLメカニズムを体系的にレビューすることを目的としている。
本稿では,その表現と事前学習タスクに基づいてSSLテクニックを分類する包括的分類法を提案する。
さらに、SSLの背後にあるモチベーションについて議論し、卓越した事前トレーニングタスクをレビューし、この分野の進歩と課題を強調します。
さらに、ViT向けに設計されたさまざまなSSLメソッドの比較分析を行い、その強み、制限、異なるシナリオへの適用性を評価した。
関連論文リスト
- Revisiting semi-supervised learning in the era of foundation models [28.414667991336067]
半教師付き学習(SSL)は、ラベル付きデータとともに豊富なラベル付きデータを活用して学習を強化する。
我々は,凍結視覚基盤モデル(VFM)が性能的に劣るSSLベンチマークデータセットを開発し,代表的なSSLメソッドを体系的に評価する。
ラベル付きデータのみを用いたパラメータ効率細調整(PEFT)は、ラベルなしデータを活用することなく、SSLのパフォーマンスとよく一致します。
ノイズの多い擬似ラベルの悪名高い問題を克服するため,より堅牢な擬似ラベルを生成するために,複数のPEFTアプローチとVFMバックボーンのアンサンブルを提案する。
論文 参考訳(メタデータ) (2025-03-12T18:01:10Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Self-supervised visual learning in the low-data regime: a comparative evaluation [40.27083924454058]
自己監視学習(SSL)は、現代のディープニューラルネットワーク(DNN)のための堅牢なトレーニング手法である
この研究は、現代のビジュアルSSLメソッドの分類を導入し、アプローチの主要なカテゴリに関する詳細な説明と洞察を添えた。
ドメイン固有のダウンストリームタスクでは、ドメイン内のローデータSSLプリトレーニングが大規模な事前トレーニングの一般的なアプローチより優れています。
論文 参考訳(メタデータ) (2024-04-26T07:23:14Z) - Can We Break Free from Strong Data Augmentations in Self-Supervised Learning? [18.83003310612038]
ディープニューラルネットワーク(DNN)における限定ラベル付きデータの課題に対処するための、有望なソリューションとして、自己教師付き学習(SSL)が登場した。
SSLモデルのパフォーマンスと学習メカニズムを形作る上で,SSLの動作が重要な役割を担っていることを明らかにする。
本稿では,事前知識を統合した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T12:53:48Z) - Evaluating Fairness in Self-supervised and Supervised Models for
Sequential Data [10.626503137418636]
自己教師型学習(SSL)は,大規模モデルのデファクトトレーニングパラダイムとなっている。
本研究では,事前学習と微調整が公正性に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-01-03T09:31:43Z) - Self-Supervision for Tackling Unsupervised Anomaly Detection: Pitfalls
and Opportunities [50.231837687221685]
自己教師付き学習(SSL)は、機械学習とその多くの現実世界のアプリケーションに変化をもたらした。
非教師なし異常検出(AD)は、自己生成性擬似異常によりSSLにも乗じている。
論文 参考訳(メタデータ) (2023-08-28T07:55:01Z) - Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects [84.6945070729684]
自己教師付き学習(SSL)は、最近、様々な時系列タスクで印象的なパフォーマンスを達成した。
この記事では、時系列データに対する最先端のSSLメソッドについてレビューする。
論文 参考訳(メタデータ) (2023-06-16T18:23:10Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - Does Decentralized Learning with Non-IID Unlabeled Data Benefit from
Self Supervision? [51.00034621304361]
自己教師型学習(SSL)のレンズによるラベルなしデータによる分散学習の研究
本研究では,分散学習環境下でのコントラスト学習アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2022-10-20T01:32:41Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Graph-based Semi-supervised Learning: A Comprehensive Review [51.26862262550445]
半教師付き学習(ssl)はラベル付きデータとラベルなしデータの両方を利用する能力があるため、実際非常に価値があります。
重要なSSLメソッドのクラスは、グラフベースの半教師付き学習(GSSL)メソッドに対応するグラフとしてデータを自然に表現することです。
GSSLメソッドは、構造のユニークさ、アプリケーションの普遍性、大規模データへのスケーラビリティのために、さまざまなドメインでその利点を実証しています。
論文 参考訳(メタデータ) (2021-02-26T05:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。