論文の概要: NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
- arxiv url: http://arxiv.org/abs/2408.11054v1
- Date: Tue, 20 Aug 2024 17:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:45:00.572954
- Title: NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
- Title(参考訳): NeCo: Patch Neighbor Consistencyによる19GPU時間におけるDINOv2の空間表現の改善
- Authors: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano,
- Abstract要約: NeCo: Patch Neighbor Consistencyは、学生モデルと教師モデルにまたがる、パッチレベルの近接一貫性を強制する新しいトレーニング損失である。
本手法は,DINOv2-Registersのような事前学習された表現の上に適用された微分可能なソート手法を用いて学習信号をブートストラップする。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 35.768260232640756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.
- Abstract(参考訳): 本稿では,事前訓練された表現を改善するための新しい自己教師付き学習信号として,ビュー間のパッチ表現のソートを提案する。
この目的のために、我々はNeCo: Patch Neighbor Consistencyを導入しました。これは、参照バッチに対して、生徒と教師モデル間でパッチレベルに近い近接一貫性を強制する、新しいトレーニング損失です。
本手法は,DINOv2-Registers などの事前学習された表現の上に,学習信号をブートストラップし,さらに改良する微分可能なソート手法を利用する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
ADE20kとPascal VOCの非パラメトリックなインコンテキストセマンティックセマンティックセマンティックセマンティクスでは+5.5%と+6%、COCO-Thingsと-Stuffの線形セマンティクス評価では+7.2%と+5.7%である。
関連論文リスト
- Pseudolabel guided pixels contrast for domain adaptive semantic segmentation [0.9831489366502301]
セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付き仮想データを使用してモデルをトレーニングし、ラベルなしで実際のデータに適応するテクニックである。
近年のいくつかの研究は、このテクニックを支援するために、自己教師付き学習の強力な方法であるコントラスト学習を使用している。
Pseudo-label Guided Pixel Contrast (PGPC) と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-15T03:25:25Z) - No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。
事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。
得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文 参考訳(メタデータ) (2024-07-15T17:58:42Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - CoMatch: Semi-supervised Learning with Contrastive Graph Regularization [86.84486065798735]
CoMatchは、支配的なアプローチを統一する、新しい半教師付き学習手法である。
複数のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-11-23T02:54:57Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Contrastive Multi-View Representation Learning on Graphs [13.401746329218017]
本稿では,グラフの構造的ビューを対比することで,ノードとグラフレベルの表現を学習するための自己教師型アプローチを提案する。
我々は8ノード中8ノードの自己教師型学習とグラフ分類のベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2020-06-10T00:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。