論文の概要: Location-Aware Self-Supervised Transformers
- arxiv url: http://arxiv.org/abs/2212.02400v1
- Date: Mon, 5 Dec 2022 16:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:51:33.871201
- Title: Location-Aware Self-Supervised Transformers
- Title(参考訳): 位置対応自己監督型変圧器
- Authors: Mathilde Caron, Neil Houlsby, Cordelia Schmid
- Abstract要約: 画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
- 参考スコア(独自算出の注目度): 74.76585889813207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pixel-level labels are particularly expensive to acquire. Hence, pretraining
is a critical step to improve models on a task like semantic segmentation.
However, prominent algorithms for pretraining neural networks use image-level
objectives, e.g. image classification, image-text alignment a la CLIP, or
self-supervised contrastive learning. These objectives do not model spatial
information, which might be suboptimal when finetuning on downstream tasks with
spatial reasoning. In this work, we propose to pretrain networks for semantic
segmentation by predicting the relative location of image parts. We formulate
this task as a classification problem where each patch in a query view has to
predict its position relatively to another reference view. We control the
difficulty of the task by masking a subset of the reference patch features
visible to those of the query. Our experiments show that this location-aware
(LOCA) self-supervised pretraining leads to representations that transfer
competitively to several challenging semantic segmentation benchmarks.
- Abstract(参考訳): ピクセルレベルのラベルは特に高価である。
したがって、事前トレーニングはセマンティックセグメンテーションのようなタスクのモデルを改善するための重要なステップである。
しかしながら、ニューラルネットワークを事前学習するための著名なアルゴリズムは、画像分類、画像テキストアライメント、あるいは自己教師付きコントラスト学習など、画像レベルの目標を用いる。
これらの目的は、空間的推論で下流のタスクを微調整する場合に最適な空間情報をモデル化しない。
本研究では,画像部分の相対的位置を予測し,意味セグメンテーションのための事前学習ネットワークを提案する。
我々はこのタスクを,クエリビューの各パッチが他の参照ビューに対して相対的に位置を予測しなければならないような分類問題として定式化する。
我々は,クエリの参照パッチ機能のサブセットをマスキングすることにより,タスクの難易度を制御する。
我々の実験は、位置認識(LOCA)による事前学習が、いくつかの挑戦的なセマンティックセグメンテーションベンチマークに競合的に変換されることを示す。
関連論文リスト
- DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Self-supervised Pre-training for Semantic Segmentation in an Indoor
Scene [8.357801312689622]
本稿ではセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。
我々は,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するために,コントラスト学習の変種を用いてDCNNモデルを訓練する。
提案手法は、ImageNetで事前訓練されたモデルよりも優れており、全く同じタスクでトレーニングされたモデルと異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-04T20:10:14Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。