論文の概要: Unsupervised Transformer Pre-Training for Images: Self-Distillation, Mean Teachers, and Random Crops
- arxiv url: http://arxiv.org/abs/2510.03606v1
- Date: Sat, 04 Oct 2025 01:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.148588
- Title: Unsupervised Transformer Pre-Training for Images: Self-Distillation, Mean Teachers, and Random Crops
- Title(参考訳): 画像の教師なしトランスフォーマー事前学習:自己蒸留、平均教師、ランダムクロップ
- Authors: Mattia Scardecchia,
- Abstract要約: DINOv2は、ほとんどのベンチマークでOpenCLIPのような弱い教師付き手法(WSL)を超越することで、新しい最先端技術を確立した。
我々は,そのアプローチの背景にある中核的な考え方,マルチクロップ・ビューの拡張と,平均的な教師による自己蒸留について検討し,過去の研究からその発展をたどる。
我々は,DINOv2の限界,その影響,今後の研究方向性を簡潔に論じて結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in self-supervised learning (SSL) have made it possible to learn general-purpose visual features that capture both the high-level semantics and the fine-grained spatial structure of images. Most notably, the recent DINOv2 has established a new state of the art by surpassing weakly supervised methods (WSL) like OpenCLIP on most benchmarks. In this survey, we examine the core ideas behind its approach, multi-crop view augmentation and self-distillation with a mean teacher, and trace their development in previous work. We then compare the performance of DINO and DINOv2 with other SSL and WSL methods across various downstream tasks, and highlight some remarkable emergent properties of their learned features with transformer backbones. We conclude by briefly discussing DINOv2's limitations, its impact, and future research directions.
- Abstract(参考訳): 近年の自己教師付き学習(SSL)の進歩により、画像の高レベルなセマンティクスときめ細かい空間構造の両方を捉える汎用的な視覚的特徴を学習することが可能になった。
最も注目すべきは、最近のDINOv2は、ほとんどのベンチマークでOpenCLIPのような弱い教師付きメソッド(WSL)を超えることによって、新しい最先端技術を確立したことである。
本研究では,そのアプローチの背景にある中核的な考え方,マルチクロップ・ビューの増補と教師による自己蒸留について検討し,先行研究の展開を追究する。
次に、DINOとDINOv2のパフォーマンスを、さまざまなダウンストリームタスクにわたるSSLおよびWSLメソッドと比較し、トランスフォーマーバックボーンで学習した機能の顕著な創発性を強調します。
我々は,DINOv2の限界,その影響,今後の研究方向性を簡潔に論じて結論付けた。
関連論文リスト
- Multi-View Crowd Counting With Self-Supervised Learning [6.247813434989324]
SSLCounterはMVCのための新しい自己教師型学習フレームワークである。
SSLCounterはシーンの暗黙の表現を学習し、連続した幾何学形状の再構築を可能にする。
実験では、SSLCounterは、トレーニングデータの70%のみを使用して、競争力のあるパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-09-26T05:59:12Z) - BECLR: Batch Enhanced Contrastive Few-Shot Learning [1.450405446885067]
教師なしの少数ショット学習は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。
本稿では,高度に分離可能な潜在表現空間を促進するために,新しい動的クラスタ mEmory (DyCE) モジュールを提案する。
そして、数ショットの推論段階でサンプルバイアスの問題に取り組みます。
論文 参考訳(メタデータ) (2024-02-04T10:52:43Z) - Know Your Self-supervised Learning: A Survey on Image-based Generative
and Discriminative Training [2.2046235060588018]
自然言語処理(NLP)を目的とした自己教師型学習(SSL)は、大きな成功を収めている。
3年以内に、画像に焦点をあてた生成的で差別的なSSLのための100ドル以上のユニークな汎用フレームワークが提案された。
論文 参考訳(メタデータ) (2023-05-23T04:54:09Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文 参考訳(メタデータ) (2021-12-23T18:07:13Z) - Self-Distilled Self-Supervised Representation Learning [35.60243157730165]
自己教師付き学習における最先端のフレームワークは、トランスフォーマーベースのモデルを完全に活用することでパフォーマンスが向上することを示した。
本研究では, コントラッシブ・ロスにより, 中間表現が最終層から学習できるようにすることにより, さらにこれを活用する。
我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。
論文 参考訳(メタデータ) (2021-11-25T07:52:36Z) - CASTing Your Model: Learning to Localize Improves Self-Supervised
Representations [18.950423334705558]
CAST(Contrastive Attention-supvised Tuning)を提案し,現在のSSLメソッドの限界を克服する。
CASTは、教師なしサリエンシマップを使用して作物をインテリジェントにサンプリングし、グラッド-CAMの注意喪失による接地監視を提供する。
COCOの実験では、CASTはシーンイメージのSSLメソッドで学んだ特徴を大幅に改善し、さらなる実験ではCAST訓練されたモデルが背景の変化に対してより堅牢であることを示しています。
論文 参考訳(メタデータ) (2020-12-08T18:50:18Z) - Can Semantic Labels Assist Self-Supervised Visual Representation
Learning? [194.1681088693248]
近隣環境におけるコントラスト調整(SCAN)という新しいアルゴリズムを提案する。
一連のダウンストリームタスクにおいて、SCANは従来の完全教師付きおよび自己教師付きメソッドよりも優れたパフォーマンスを達成する。
本研究は, セマンティックラベルが自己指導的手法の補助に有用であることを明らかにする。
論文 参考訳(メタデータ) (2020-11-17T13:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。