論文の概要: R-MAE: Regions Meet Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2306.05411v1
- Date: Thu, 8 Jun 2023 17:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 12:56:23.531123
- Title: R-MAE: Regions Meet Masked Autoencoders
- Title(参考訳): R-MAE:地域がマスクオートエンコーダと出会う
- Authors: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald,
Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
- Abstract要約: 汎用機械学習フレームワークをオブジェクト検出などのタスクに拡張する上で、"Region"は重要な役割を担っている。
本稿では,画像と領域間の一対一マッピングに対処する並列プレテキストタスクを提案する。
我々は、R-MAEの開発中に徹底的な解析を行い、効率的かつ効率的な変種に収束する。
- 参考スコア(独自算出の注目度): 123.09774063683648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.
- Abstract(参考訳): といった視覚特有の概念は、一般的な機械学習フレームワークをオブジェクト検出のようなタスクに拡張する上で重要な役割を果たす。
教師付き学習における領域ベースの検出器の成功とコントラスト学習における画像内手法の進歩を踏まえ,再構成事前学習における領域の利用について検討する。
マスキングオートエンコーディング(mae)をベースラインとインスピレーションとして開始し,画像と領域間の1対1のマッピングに対応するために調整された並列プリテキストタスクを提案する。
このような領域は教師なしの方法で生成できるため、我々のアプローチ(R-MAE)は、より"リージョン対応"でありながら、MAEから幅広い適用性を継承する。
我々は、R-MAEの開発中に徹底的な解析を行い、効率的かつ効率的な変種(MAEの1.3%のオーバーヘッド)に収束する。
さらに,様々な事前学習データや下流検出およびセグメンテーションベンチマークに一般化した場合,一貫した定量的改善を示す。
最後に、R-MAEの振る舞いとポテンシャルの理解を深めるために、広範囲な定性的な可視化を提供する。
コードはhttps://github.com/facebookresearch/r-maeで入手できる。
関連論文リスト
- MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Region-Based Representations Revisited [34.01784145403097]
SAMのような最近のクラスに依存しないセグメンタは、DINOv2のような強力な教師なし表現と効果的に組み合わせることができることを示す。
表現のコンパクトさは、多くの画像にまたがる推論を必要とするビデオ解析や他の問題にも適している。
論文 参考訳(メタデータ) (2024-02-04T05:33:04Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。
本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。
潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - Refine and Represent: Region-to-Object Representation Learning [55.70715883351945]
本稿では、領域ベースとオブジェクト中心の事前学習を統一する領域対オブジェクト表現学習(R2O)を提案する。
R2Oは、エンコーダを訓練して、領域ベースのセグメントをオブジェクト中心のマスクに動的に洗練する。
ImageNetで事前トレーニングを行った後、R2Oモデルは教師なしオブジェクトセグメンテーションにおける既存の最先端技術を上回ることができる。
論文 参考訳(メタデータ) (2022-08-25T01:44:28Z) - Semantic Segmentation With Multi Scale Spatial Attention For Self
Driving Cars [2.7317088388886384]
本稿では,様々なスケールのマルチスケール特徴融合を用いた新しいニューラルネットワークを提案し,その精度と効率的なセマンティックイメージセグメンテーションを提案する。
我々は、ResNetベースの特徴抽出器、ダウンサンプリング部における拡張畳み込み層、アップサンプリング部におけるアトラス畳み込み層を使用し、コンキャット操作を用いてそれらをマージした。
より文脈的な情報をエンコードし、ネットワークの受容領域を強化するため、新しいアテンションモジュールが提案されている。
論文 参考訳(メタデータ) (2020-06-30T20:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。