論文の概要: Near, far: Patch-ordering enhances vision foundation models' scene understanding
- arxiv url: http://arxiv.org/abs/2408.11054v2
- Date: Tue, 11 Feb 2025 14:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:45.676511
- Title: Near, far: Patch-ordering enhances vision foundation models' scene understanding
- Title(参考訳): Patch-orderingは視覚基礎モデルのシーン理解を強化
- Authors: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano,
- Abstract要約: NeCo: Patch Neighbor Consistencyは、学生と教師のモデル全体で、パッチレベルの隣り合う一貫性を強制します。
学習信号のブートストラップには,DINOv2-Registerなどの事前訓練された表現の上に適用した微分可能なソートを利用する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 35.768260232640756
- License:
- Abstract: We introduce NeCo: Patch Neighbor Consistency, a novel self-supervised training loss that enforces patch-level nearest neighbor consistency across a student and teacher model. Compared to contrastive approaches that only yield binary learning signals, i.e., 'attract' and 'repel', this approach benefits from the more fine-grained learning signal of sorting spatially dense features relative to reference patches. Our method leverages differentiable sorting applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. This method generates high-quality dense feature encoders and establishes several new state-of-the-art results such as +5.5% and +6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff and improvements in the 3D understanding of multi-view consistency on SPair-71k, by more than 1.5%.
- Abstract(参考訳): NeCo: Patch Neighbor Consistencyは、学生と教師のモデルにまたがるパッチレベルの近接一貫性を強制する、新しい自己教師型トレーニング損失である。
二項学習信号、すなわち「引き込み」と「受け取り」のみを出力する対照的なアプローチと比較して、このアプローチは参照パッチに対して空間的に密接な特徴をソートするよりきめ細かな学習信号の恩恵を受ける。
本手法は,DINOv2-Registerなどの事前訓練された表現の上に適用された識別可能なソートを利用して,学習信号をブートストラップし,さらに改良する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
高品質な高密度特徴エンコーダを生成し、ADE20kとPascal VOCの非パラメトリックなインコンテキストセマンティックセマンティックセグメンテーションの+5.5%と+6%、COCO-Thingsの線形セグメンテーション評価の+7.2%と+5.7%、SPair-71kのマルチビュー一貫性の3D理解と改善を1.5%以上向上させる。
関連論文リスト
- Pseudolabel guided pixels contrast for domain adaptive semantic segmentation [0.9831489366502301]
セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付き仮想データを使用してモデルをトレーニングし、ラベルなしで実際のデータに適応するテクニックである。
近年のいくつかの研究は、このテクニックを支援するために、自己教師付き学習の強力な方法であるコントラスト学習を使用している。
Pseudo-label Guided Pixel Contrast (PGPC) と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-15T03:25:25Z) - No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。
事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。
得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文 参考訳(メタデータ) (2024-07-15T17:58:42Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - CoMatch: Semi-supervised Learning with Contrastive Graph Regularization [86.84486065798735]
CoMatchは、支配的なアプローチを統一する、新しい半教師付き学習手法である。
複数のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-11-23T02:54:57Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Contrastive Multi-View Representation Learning on Graphs [13.401746329218017]
本稿では,グラフの構造的ビューを対比することで,ノードとグラフレベルの表現を学習するための自己教師型アプローチを提案する。
我々は8ノード中8ノードの自己教師型学習とグラフ分類のベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2020-06-10T00:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。