論文の概要: Near, far: Patch-ordering enhances vision foundation models' scene understanding
- arxiv url: http://arxiv.org/abs/2408.11054v2
- Date: Tue, 11 Feb 2025 14:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:45.676511
- Title: Near, far: Patch-ordering enhances vision foundation models' scene understanding
- Title(参考訳): Patch-orderingは視覚基礎モデルのシーン理解を強化
- Authors: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano,
- Abstract要約: NeCo: Patch Neighbor Consistencyは、学生と教師のモデル全体で、パッチレベルの隣り合う一貫性を強制します。
学習信号のブートストラップには,DINOv2-Registerなどの事前訓練された表現の上に適用した微分可能なソートを利用する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 35.768260232640756
- License:
- Abstract: We introduce NeCo: Patch Neighbor Consistency, a novel self-supervised training loss that enforces patch-level nearest neighbor consistency across a student and teacher model. Compared to contrastive approaches that only yield binary learning signals, i.e., 'attract' and 'repel', this approach benefits from the more fine-grained learning signal of sorting spatially dense features relative to reference patches. Our method leverages differentiable sorting applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. This method generates high-quality dense feature encoders and establishes several new state-of-the-art results such as +5.5% and +6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff and improvements in the 3D understanding of multi-view consistency on SPair-71k, by more than 1.5%.
- Abstract(参考訳): NeCo: Patch Neighbor Consistencyは、学生と教師のモデルにまたがるパッチレベルの近接一貫性を強制する、新しい自己教師型トレーニング損失である。
二項学習信号、すなわち「引き込み」と「受け取り」のみを出力する対照的なアプローチと比較して、このアプローチは参照パッチに対して空間的に密接な特徴をソートするよりきめ細かな学習信号の恩恵を受ける。
本手法は,DINOv2-Registerなどの事前訓練された表現の上に適用された識別可能なソートを利用して,学習信号をブートストラップし,さらに改良する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
高品質な高密度特徴エンコーダを生成し、ADE20kとPascal VOCの非パラメトリックなインコンテキストセマンティックセマンティックセグメンテーションの+5.5%と+6%、COCO-Thingsの線形セグメンテーション評価の+7.2%と+5.7%、SPair-71kのマルチビュー一貫性の3D理解と改善を1.5%以上向上させる。
関連論文リスト
- No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。
事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。
得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文 参考訳(メタデータ) (2024-07-15T17:58:42Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - A Simplified Framework for Contrastive Learning for Node Representations [2.277447144331876]
グラフにノードを埋め込むために,グラフニューラルネットワークと組み合わせてコントラスト学習を展開できる可能性を検討する。
組込み行列の単純なカラムワイド後処理により, 組込み結果の品質とトレーニング時間を大幅に改善できることを示す。
この修正により、下流の分類タスクは最大1.5%改善され、8つの異なるベンチマークのうち6つで既存の最先端のアプローチに勝っている。
論文 参考訳(メタデータ) (2023-05-01T02:04:36Z) - Hierarchical Nearest Neighbor Graph Embedding for Efficient
Dimensionality Reduction [25.67957712837716]
元の空間における1-アレスト近傍グラフ上に構築された階層構造に基づく新しい手法を提案する。
この提案は、t-SNE と UMAP の最新バージョンと競合する最適化のないプロジェクションである。
そこで本論文では,提案手法の健全性について論じ,28~16Kの範囲で1Kから1100万のサンプルと寸法の異なるデータセットの多種多様なコレクション上で評価を行った。
論文 参考訳(メタデータ) (2022-03-24T11:41:16Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - CoMatch: Semi-supervised Learning with Contrastive Graph Regularization [86.84486065798735]
CoMatchは、支配的なアプローチを統一する、新しい半教師付き学習手法である。
複数のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-11-23T02:54:57Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Contrastive Multi-View Representation Learning on Graphs [13.401746329218017]
本稿では,グラフの構造的ビューを対比することで,ノードとグラフレベルの表現を学習するための自己教師型アプローチを提案する。
我々は8ノード中8ノードの自己教師型学習とグラフ分類のベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2020-06-10T00:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。