論文の概要: Region Similarity Representation Learning
- arxiv url: http://arxiv.org/abs/2103.12902v1
- Date: Wed, 24 Mar 2021 00:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:05:37.641163
- Title: Region Similarity Representation Learning
- Title(参考訳): 地域類似性表現学習
- Authors: Tete Xiao, Colorado J Reed, Xiaolong Wang, Kurt Keutzer, Trevor
Darrell
- Abstract要約: Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
- 参考スコア(独自算出の注目度): 94.88055458257081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Region Similarity Representation Learning (ReSim), a new approach
to self-supervised representation learning for localization-based tasks such as
object detection and segmentation. While existing work has largely focused on
solely learning global representations for an entire image, ReSim learns both
regional representations for localization as well as semantic image-level
representations. ReSim operates by sliding a fixed-sized window across the
overlapping area between two views (e.g., image crops), aligning these areas
with their corresponding convolutional feature map regions, and then maximizing
the feature similarity across views. As a result, ReSim learns spatially and
semantically consistent feature representation throughout the convolutional
feature maps of a neural network. A shift or scale of an image region, e.g., a
shift or scale of an object, has a corresponding change in the feature maps;
this allows downstream tasks to leverage these representations for
localization. Through object detection, instance segmentation, and dense pose
estimation experiments, we illustrate how ReSim learns representations which
significantly improve the localization and classification performance compared
to a competitive MoCo-v2 baseline: $+2.7$ AP$^{\text{bb}}_{75}$ VOC, $+1.1$
AP$^{\text{bb}}_{75}$ COCO, and $+1.9$ AP$^{\text{mk}}$ Cityscapes. Code and
pre-trained models are released at: \url{https://github.com/Tete-Xiao/ReSim}
- Abstract(参考訳): 本稿では,オブジェクト検出やセグメンテーションといったローカライゼーションに基づくタスクに対する自己教師型表現学習の新しいアプローチであるReSimを提案する。
既存の研究は、画像全体のグローバル表現のみを学習することに重点を置いているが、ReSimはローカライゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学ぶ。
ReSimは、2つのビュー(例えば、画像の収穫物)の間に重なり合う領域にわたって固定サイズのウィンドウをスライドさせ、これらの領域を対応する畳み込み特徴写像領域と整列させ、ビュー間の特徴類似性を最大化する。
その結果、ReSimはニューラルネットワークの畳み込み特徴マップ全体を通して空間的かつ意味的に一貫した特徴表現を学習する。
画像領域のシフトまたはスケール(例えば、オブジェクトのシフトまたはスケール)は、特徴マップに対応する変化を持ち、下流のタスクはこれらの表現をローカライゼーションに活用することができる。
オブジェクト検出、インスタンスセグメンテーション、高密度ポーズ推定実験を通じて、ReSimは、競合するMoCo-v2ベースラインと比較して、ローカライゼーションと分類性能を著しく向上させる表現を学習する方法を説明している: $+2.7$ AP$^{\text{bb}}_{75}$ VOC, $+1.1$ AP$^{\text{bb}}_{75}$ COCO, $+1.9$ AP$^{\text{mk}}$ Cityscapes。
コードと事前訓練されたモデルは以下の通りリリースされている。
関連論文リスト
- High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - VICRegL: Self-Supervised Learning of Local Visual Features [34.92750644059916]
本稿では,局所的な特徴とグローバルな特徴の学習における基本的なトレードオフについて考察する。
グローバルな特徴とローカルな特徴を同時に学習するVICRegLと呼ばれる新しい手法が提案されている。
線形分類とセグメンテーション伝達タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2022-10-04T12:54:25Z) - Refine and Represent: Region-to-Object Representation Learning [55.70715883351945]
本稿では、領域ベースとオブジェクト中心の事前学習を統一する領域対オブジェクト表現学習(R2O)を提案する。
R2Oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練する。
ImageNetで事前トレーニングを行った後、R2Oモデルは教師なしオブジェクトセグメンテーションにおける既存の最先端技術を上回ることができる。
論文 参考訳(メタデータ) (2022-08-25T01:44:28Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - RegionCL: Can Simple Region Swapping Contribute to Contrastive Learning? [76.16156833138038]
地域コントラスト学習(RegionCL)という,シンプルで効果的な前提文タスクを提案する。
具体的には、2つの異なる画像が与えられた場合、各画像から同じ大きさの領域をランダムに収穫し、それを交換して2つの新しい画像と左の領域を合成する。
RegionCLは、これらの豊富なペアを利用して、モデルをキャンバスとペーストの両方のビューと区別するのに役立つ。
論文 参考訳(メタデータ) (2021-11-24T07:19:46Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Unsupervised Learning of Dense Visual Representations [14.329781842154281]
本研究では,高密度表現の教師なし学習のためのビュー・アグノスティック・Dense Representation (VADeR)を提案する。
VADeRは、異なる視聴条件に対して局所的な特徴を一定に保ち続けるように強制することで、ピクセルワイズ表現を学習する。
提案手法は、複数の密集予測タスクにおいて、ImageNetの教師付き事前学習よりも優れる。
論文 参考訳(メタデータ) (2020-11-11T01:28:11Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。