論文の概要: Dense Siamese Network
- arxiv url: http://arxiv.org/abs/2203.11075v1
- Date: Mon, 21 Mar 2022 15:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 14:26:06.295475
- Title: Dense Siamese Network
- Title(参考訳): 密集したシャム網
- Authors: Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy
- Abstract要約: 本稿では,Dense Siamese Network(DenseSiam)を提案する。
画像の2つのビュー間の類似性を最大化し、ピクセルの一貫性と領域の一貫性という2種類の一貫性を学習する。
最先端のセグメンテーション手法を2.1 mIoUで28%のトレーニングコストで上回っている。
- 参考スコア(独自算出の注目度): 86.23741104851383
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents Dense Siamese Network (DenseSiam), a simple unsupervised
learning framework for dense prediction tasks. It learns visual representations
by maximizing the similarity between two views of one image with two types of
consistency, i.e., pixel consistency and region consistency. Concretely,
DenseSiam first maximizes the pixel level spatial consistency according to the
exact location correspondence in the overlapped area. It also extracts a batch
of region embeddings that correspond to some sub-regions in the overlapped area
to be contrasted for region consistency. In contrast to previous methods that
require negative pixel pairs, momentum encoders, or heuristic masks, DenseSiam
benefits from the simple Siamese network and optimizes the consistency of
different granularities. It also proves that the simple location correspondence
and interacted region embeddings are effective enough to learn the similarity.
We apply DenseSiam on ImageNet and obtain competitive improvements on various
downstream tasks. We also show that only with some extra task-specific losses,
the simple framework can directly conduct dense prediction tasks. On an
existing unsupervised semantic segmentation benchmark, it surpasses
state-of-the-art segmentation methods by 2.1 mIoU with 28% training costs.
- Abstract(参考訳): 本稿では,高密度予測タスクのための単純な教師なし学習フレームワークであるDense Siamese Network(DenseSiam)を提案する。
画像の2つのビュー間の類似性を最大化し、ピクセルの一貫性と領域の一貫性という2種類の一貫性を学習する。
具体的には、まず、重なり合う領域の正確な位置対応に従って、ピクセルレベルの空間的一貫性を最大化する。
また、重複領域のいくつかのサブリージョンに対応する領域埋め込みのバッチを抽出し、領域の一貫性と対比する。
負のピクセル対、運動量エンコーダ、またはヒューリスティックマスクを必要とする従来の手法とは対照的に、DenseSiamは単純なシームズネットワークから恩恵を受け、異なる粒度の一貫性を最適化する。
また、単純な位置対応と相互作用する領域埋め込みは、類似性を学ぶのに十分な有効であることを示す。
我々は、ImageNetにDenseSiamを適用し、様々な下流タスクの競争力の向上を得る。
また、タスク固有の損失を少し増やせば、単純なフレームワークが密集した予測タスクを直接実行できることも示します。
既存の教師なしセマンティクスセグメンテーションベンチマークでは、最先端セグメンテーションメソッドを28%のトレーニングコストで2.1miouで上回っている。
関連論文リスト
- Weakly-Supervised Semantic Segmentation of Circular-Scan,
Synthetic-Aperture-Sonar Imagery [3.5534342430133514]
本稿では,円スキャン合成開口ソナー(CSAS)画像のセマンティックセグメンテーションのための弱教師付きフレームワークを提案する。
我々は,9つの完全教師付きディープネットワークに対して,我々のフレームワークが相互運用可能であることを示す。
我々は,自然画像の事前学習において,最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-01-20T19:55:36Z) - Associating Spatially-Consistent Grouping with Text-supervised Semantic
Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。
部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。
59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-04-03T16:24:39Z) - MKANet: A Lightweight Network with Sobel Boundary Loss for Efficient
Land-cover Classification of Satellite Remote Sensing Imagery [15.614937709070203]
ランドカバー分類は、各ピクセルを地球表面の特定の自然または人工のカテゴリに分類するマルチクラスタスクである。
我々は、MKANetと呼ばれる効率的な軽量セマンティックセグメンテーションネットワークを提案する。
MKANetは2つの土地被覆分類データセットの最先端の精度を取得し、他の競合する軽量ネットワークよりも2倍高速に推定できることを示す。
論文 参考訳(メタデータ) (2022-07-28T03:29:08Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Weakly-Supervised Semantic Segmentation by Iterative Affinity Learning [86.45526827323954]
弱教師付きセマンティックセグメンテーションは、トレーニングのためにピクセル単位のラベル情報が提供されないため、難しい課題である。
このようなペア関係を学習するための反復アルゴリズムを提案する。
本稿では,提案アルゴリズムが最先端手法に対して好適に動作することを示す。
論文 参考訳(メタデータ) (2020-02-19T10:32:03Z) - An End-to-End Network for Co-Saliency Detection in One Single Image [47.35448093528382]
単一の画像内の共分散検出は、まだ十分に対処されていない一般的な視覚問題である。
本研究では、バックボーンネットと2つの分岐ネットからなる新しいエンドツーエンドのトレーニングネットワークを提案する。
本研究では,2,019個の自然画像のデータセットを各画像に共分散して構築し,提案手法の評価を行う。
論文 参考訳(メタデータ) (2019-10-25T16:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。