論文の概要: VICRegL: Self-Supervised Learning of Local Visual Features
- arxiv url: http://arxiv.org/abs/2210.01571v1
- Date: Tue, 4 Oct 2022 12:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:05:02.981531
- Title: VICRegL: Self-Supervised Learning of Local Visual Features
- Title(参考訳): VICRegL: ローカルな視覚特徴の自己教師付き学習
- Authors: Adrien Bardes and Jean Ponce and Yann LeCun
- Abstract要約: 本稿では,局所的な特徴とグローバルな特徴の学習における基本的なトレードオフについて考察する。
グローバルな特徴とローカルな特徴を同時に学習するVICRegLと呼ばれる新しい手法が提案されている。
線形分類とセグメンテーション伝達タスクにおいて高い性能を示す。
- 参考スコア(独自算出の注目度): 34.92750644059916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent self-supervised methods for learning image representations focus
on either producing a global feature with invariance properties, or producing a
set of local features. The former works best for classification tasks while the
latter is best for detection and segmentation tasks. This paper explores the
fundamental trade-off between learning local and global features. A new method
called VICRegL is proposed that learns good global and local features
simultaneously, yielding excellent performance on detection and segmentation
tasks while maintaining good performance on classification tasks. Concretely,
two identical branches of a standard convolutional net architecture are fed two
differently distorted versions of the same image. The VICReg criterion is
applied to pairs of global feature vectors. Simultaneously, the VICReg
criterion is applied to pairs of local feature vectors occurring before the
last pooling layer. Two local feature vectors are attracted to each other if
their l2-distance is below a threshold or if their relative locations are
consistent with a known geometric transformation between the two input images.
We demonstrate strong performance on linear classification and segmentation
transfer tasks. Code and pretrained models are publicly available at:
https://github.com/facebookresearch/VICRegL
- Abstract(参考訳): 画像表現を学習するための近年の自己教師型手法は、不変性を持つグローバルな特徴の生成や、局所的な特徴の集合の生成に重点を置いている。
前者は分類タスクに最適であり、後者は検出タスクとセグメンテーションタスクに最適である。
本稿では,局所的特徴とグローバル的特徴との基本的なトレードオフについて考察する。
優れたグローバル特徴とローカル特徴を同時に学習し,分類タスクに優れた性能を維持しつつ,検出および分割タスクに優れた性能を与えるvicreglと呼ばれる新しい手法を提案する。
具体的には、標準畳み込みネットアーキテクチャの2つの同一の分岐を、同じ画像の2つの異なる歪んだバージョンに供給する。
VICRegの基準は、グローバルな特徴ベクトルのペアに適用される。
同時に、VICReg基準が最後のプーリング層の前に発生する局所特徴ベクトルの対に適用される。
2つの局所特徴ベクトルは、l2距離がしきい値以下である場合や、それらの相対位置が2つの入力画像間の既知の幾何学的変換と一致する場合、互いに惹かれる。
線形分類とセグメンテーション転送タスクにおいて,強い性能を示す。
コードおよび事前訓練されたモデルは、https://github.com/facebookresearch/VICRegLで公開されている。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - A Hierarchical Dual Model of Environment- and Place-Specific Utility for
Visual Place Recognition [26.845945347572446]
視覚的位置認識(VPR)のための2つの重要なユーティリティを推定する新しい手法を提案する。
本稿では,Vactor of Locally Aggregated Descriptors(VLAD)クラスタの環境特性と場所特性の両方を推定するために,対照的な学習原理を用いる。
これら2つのユーティリティ指標を組み合わせることで、3つの挑戦的なベンチマークデータセットに対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-06T07:38:47Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。