論文の概要: Refine and Represent: Region-to-Object Representation Learning
- arxiv url: http://arxiv.org/abs/2208.11821v1
- Date: Thu, 25 Aug 2022 01:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:24:10.441611
- Title: Refine and Represent: Region-to-Object Representation Learning
- Title(参考訳): 洗練と表現: 領域間表現学習
- Authors: Akash Gokul, Konstantinos Kallidromitis, Shufan Li, Yusuke Kato,
Kazuki Kozuka, Trevor Darrell, and Colorado J Reed
- Abstract要約: 本稿では、領域ベースとオブジェクト中心の事前学習を統一する領域対オブジェクト表現学習(R2O)を提案する。
R2Oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練する。
ImageNetで事前トレーニングを行った後、R2Oモデルは教師なしオブジェクトセグメンテーションにおける既存の最先端技術を上回ることができる。
- 参考スコア(独自算出の注目度): 55.70715883351945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works in self-supervised learning have demonstrated strong performance
on scene-level dense prediction tasks by pretraining with object-centric or
region-based correspondence objectives. In this paper, we present
Region-to-Object Representation Learning (R2O) which unifies region-based and
object-centric pretraining. R2O operates by training an encoder to dynamically
refine region-based segments into object-centric masks and then jointly learns
representations of the contents within the mask. R2O uses a "region refinement
module" to group small image regions, generated using a region-level prior,
into larger regions which tend to correspond to objects by clustering
region-level features. As pretraining progresses, R2O follows a
region-to-object curriculum which encourages learning region-level features
early on and gradually progresses to train object-centric representations.
Representations learned using R2O lead to state-of-the art performance in
semantic segmentation for PASCAL VOC (+0.7 mIOU) and Cityscapes (+0.4 mIOU) and
instance segmentation on MS COCO (+0.3 mask AP). Further, after pretraining on
ImageNet, R2O pretrained models are able to surpass existing state-of-the-art
in unsupervised object segmentation on the Caltech-UCSD Birds 200-2011 dataset
(+2.9 mIoU) without any further training. We provide the code/models from this
work at https://github.com/KKallidromitis/r2o.
- Abstract(参考訳): 自己教師付き学習における最近の研究は、オブジェクト中心または領域ベースの対応目標を事前学習することで、シーンレベルの密集した予測タスクにおいて強いパフォーマンスを示している。
本稿では,領域ベースとオブジェクト中心の事前学習を統合する領域間表現学習(r2o)を提案する。
r2oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練し、マスク内のコンテンツの表現を共同で学習する。
r2oは「領域リファインメントモジュール」を使用して、領域レベルの先行で生成された小さな画像領域を、領域レベルの特徴をクラスタリングすることでオブジェクトに対応する傾向がある大きな領域にグループ化する。
事前学習が進むにつれて、R2Oは早期に地域レベルの特徴を学習し、徐々にオブジェクト中心の表現を訓練する領域間カリキュラムに従う。
R2Oを用いて学んだ表現は、PASCAL VOC(+0.7 mIOU)とCityscapes(+0.4 mIOU)のセマンティックセグメンテーションにおける最先端技術のパフォーマンスと、MS COCO(+0.3 mask AP)のインスタンスセグメンテーションにつながった。
さらに、ImageNetで事前トレーニングを行った後、R2O事前訓練されたモデルは、Caltech-UCSD Birds 200-2011データセット(+2.9 mIoU)の教師なしオブジェクトセグメンテーションにおいて、それ以上のトレーニングをすることなく既存の最先端のオブジェクトセグメンテーションを超えることができる。
この作業から得られたコード/モデルは、https://github.com/kkallidromitis/r2oで提供します。
関連論文リスト
- Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Region-Enhanced Feature Learning for Scene Semantic Segmentation [19.20735517821943]
計算負担を軽減するために,細粒度点やボクセルの代わりに点雲の中間表現として領域を用いることを提案する。
本研究では,セマンティック空間領域抽出段階と領域依存モデリング段階からなるRFEモジュールを設計する。
我々のREFL-NetはScanNetV2で1.8% mIoUゲイン、S3DISデータセットで1.7% mIoUゲインを無視可能な計算コストで達成している。
論文 参考訳(メタデータ) (2023-04-15T06:35:06Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。