論文の概要: Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2306.13337v1
- Date: Fri, 23 Jun 2023 07:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 13:25:29.426718
- Title: Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning
- Title(参考訳): 高精度・高密度コントラスト表現学習のためのパッチ対応のないパッチレベルコントラスト
- Authors: Shaofeng Zhang, Feng Zhu, Rui Zhao, Junchi Yan
- Abstract要約: ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 79.43940012723539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose ADCLR: A ccurate and D ense Contrastive Representation Learning, a
novel self-supervised learning framework for learning accurate and dense vision
representation. To extract spatial-sensitive information, ADCLR introduces
query patches for contrasting in addition with global contrasting. Compared
with previous dense contrasting methods, ADCLR mainly enjoys three merits: i)
achieving both global-discriminative and spatial-sensitive representation, ii)
model-efficient (no extra parameters in addition to the global contrasting
baseline), and iii) correspondence-free and thus simpler to implement. Our
approach achieves new state-of-the-art performance for contrastive methods. On
classification tasks, for ViT-S, ADCLR achieves 77.5% top-1 accuracy on
ImageNet with linear probing, outperforming our baseline (DINO) without our
devised techniques as plug-in, by 0.5%. For ViT-B, ADCLR achieves 79.8%, 84.0%
accuracy on ImageNet by linear probing and finetune, outperforming iBOT by
0.3%, 0.2% accuracy. For dense tasks, on MS-COCO, ADCLR achieves significant
improvements of 44.3% AP on object detection, 39.7% AP on instance
segmentation, outperforming previous SOTA method SelfPatch by 2.2% and 1.2%,
respectively. On ADE20K, ADCLR outperforms SelfPatch by 1.0% mIoU, 1.2% mAcc on
the segme
- Abstract(参考訳): 本稿では, 高精度で高密度な視覚表現を学習するための, 自己教師型学習フレームワークADCLRを提案する。
空間感性情報を抽出するために、ADCLRはグローバルコントラストに加えてコントラストのためのクエリパッチを導入している。
従来の高密度コントラスト法と比較して、ADCLRは主に3つのメリットがある。
一 グローバル識別及び空間感応表現の両立を図ること。
二 モデル効率(グローバルコントラストベースラインに加えて余分なパラメータを含まないこと。)及び
三 通信不要で、従って実施し易いこと。
提案手法は,コントラスト手法の最先端性能を実現する。
分類タスクでは、VT-Sの場合、ADCLRはイメージネットの77.5%のトップ-1精度を線形プローブで達成し、プラグインとして考案されたテクニックを使わずにベースライン(DINO)を0.5%上回った。
ViT-B の場合、ADCLR は 79.8%、84.0% の精度を ImageNet 上で線形プローブとファインチューンで達成し、iBOT を 0.3%、精度 0.2% で上回っている。
MS-COCOでは、ADCLRはオブジェクト検出における44.3%のAP、インスタンスセグメンテーションにおける39.7%のAPを大幅に改善し、以前のSOTAメソッドであるSelfPatchの2.2%と1.2%を上回った。
ADE20KではADCLRがSelfPatchを1.0% mIoU, 1.2% mAccで上回る
関連論文リスト
- Sebica: Lightweight Spatial and Efficient Bidirectional Channel Attention Super Resolution Network [0.0]
SISR(Single Image Super-Resolution)は,低解像度画像の画質向上のための重要な技術である。
本稿では,空間的および効率的な双方向チャネルアテンション機構を組み込んだ軽量ネットワークSebicaを提案する。
セビカは高い復元品質を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-10-27T18:27:07Z) - DAPONet: A Dual Attention and Partially Overparameterized Network for Real-Time Road Damage Detection [4.185368042845483]
ストリートビュー画像データ(SVRDD)を用いたリアルタイム道路損傷検出のためのDAPONetを提案する。
DAPONetは、SVRDDデータセット上で70.1%のmAP50を達成し、YOLOv10nを10.4%上回り、パラメータを1.6M、FLOPを1.7Gに減らし、それぞれ41%、80%削減した。
MS COCO 2017 valデータセットでは、DAPONetはmAP50-95が33.4%、効率の良いDet-D1より0.8%高く、パラメータとFLOPの両方が74%減少している。
論文 参考訳(メタデータ) (2024-09-03T04:53:32Z) - KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving [2.382388777981433]
本稿では, 自律走行における3次元物体検出の高速化を目的としたkan-RCBEVDepth法を提案する。
我々のユニークなBird’s Eye Viewベースのアプローチは、検出精度と効率を大幅に改善します。
コードはurlhttps://www.laitiamo.com/laitiamo/RCBEVDepth-KANでリリースされる。
論文 参考訳(メタデータ) (2024-08-04T16:54:49Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。