論文の概要: NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
- arxiv url: http://arxiv.org/abs/2408.11054v1
- Date: Tue, 20 Aug 2024 17:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:45:00.572954
- Title: NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
- Title(参考訳): NeCo: Patch Neighbor Consistencyによる19GPU時間におけるDINOv2の空間表現の改善
- Authors: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano,
- Abstract要約: NeCo: Patch Neighbor Consistencyは、学生モデルと教師モデルにまたがる、パッチレベルの近接一貫性を強制する新しいトレーニング損失である。
本手法は,DINOv2-Registersのような事前学習された表現の上に適用された微分可能なソート手法を用いて学習信号をブートストラップする。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 35.768260232640756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.
- Abstract(参考訳): 本稿では,事前訓練された表現を改善するための新しい自己教師付き学習信号として,ビュー間のパッチ表現のソートを提案する。
この目的のために、我々はNeCo: Patch Neighbor Consistencyを導入しました。これは、参照バッチに対して、生徒と教師モデル間でパッチレベルに近い近接一貫性を強制する、新しいトレーニング損失です。
本手法は,DINOv2-Registers などの事前学習された表現の上に,学習信号をブートストラップし,さらに改良する微分可能なソート手法を利用する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
ADE20kとPascal VOCの非パラメトリックなインコンテキストセマンティックセマンティックセマンティックセマンティクスでは+5.5%と+6%、COCO-Thingsと-Stuffの線形セマンティクス評価では+7.2%と+5.7%である。
関連論文リスト
- No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。
事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。
得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文 参考訳(メタデータ) (2024-07-15T17:58:42Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。
この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文 参考訳(メタデータ) (2023-05-01T02:04:36Z) - Hierarchical Nearest Neighbor Graph Embedding for Efficient
Dimensionality Reduction [25.67957712837716]
元の空間における1-アレスト近傍グラフ上に構築された階層構造に基づく新しい手法を提案する。
この提案は、t-SNE と UMAP の最新バージョンと競合する最適化のないプロジェクションである。
そこで本論文では,提案手法の健全性について論じ,28~16Kの範囲で1Kから1100万のサンプルと寸法の異なるデータセットの多種多様なコレクション上で評価を行った。
論文 参考訳(メタデータ) (2022-03-24T11:41:16Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - CoMatch: Semi-supervised Learning with Contrastive Graph Regularization [86.84486065798735]
CoMatchは、支配的なアプローチを統一する、新しい半教師付き学習手法である。
複数のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-11-23T02:54:57Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Contrastive Multi-View Representation Learning on Graphs [13.401746329218017]
本稿では,グラフの構造的ビューを対比することで,ノードとグラフレベルの表現を学習するための自己教師型アプローチを提案する。
我々は8ノード中8ノードの自己教師型学習とグラフ分類のベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2020-06-10T00:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。