論文の概要: Exploring Long-Sequence Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2210.07224v1
- Date: Thu, 13 Oct 2022 17:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:33:16.673795
- Title: Exploring Long-Sequence Masked Autoencoders
- Title(参考訳): 長周期マスクオートエンコーダの探索
- Authors: Ronghang Hu, Shoubhik Debnath, Saining Xie, Xinlei Chen
- Abstract要約: Masked Autoencoding (MAE)は、複数のドメインにまたがる事前学習のための効果的なアプローチとして登場した。
我々は,事前学習期間中に各入力仕様を体系的に研究し,シーケンス長はMAEをさらにスケールするキー軸であることを示す。
- 参考スコア(独自算出の注目度): 44.732268259701726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoding (MAE) has emerged as an effective approach for
pre-training representations across multiple domains. In contrast to discrete
tokens in natural languages, the input for image MAE is continuous and subject
to additional specifications. We systematically study each input specification
during the pre-training stage, and find sequence length is a key axis that
further scales MAE. Our study leads to a long-sequence version of MAE with
minimal changes to the original recipe, by just decoupling the mask size from
the patch size. For object detection and semantic segmentation, our
long-sequence MAE shows consistent gains across all the experimental setups
without extra computation cost during the transfer. While long-sequence
pre-training is discerned most beneficial for detection and segmentation, we
also achieve strong results on ImageNet-1K classification by keeping a standard
image size and only increasing the sequence length. We hope our findings can
provide new insights and avenues for scaling in computer vision.
- Abstract(参考訳): Masked Autoencoding (MAE)は、複数のドメインにまたがる事前学習のための効果的なアプローチとして登場した。
自然言語の離散トークンとは対照的に、画像MAEの入力は連続であり、追加の仕様に従う。
我々は,事前学習段階における各入力仕様を体系的に検討し,シーケンス長をmaeをさらにスケールする鍵軸とする。
我々の研究は、マスクサイズをパッチサイズから切り離すことで、オリジナルのレシピを最小限に変更したMAEの長いシーケンスバージョンにつながる。
オブジェクト検出とセマンティックセグメンテーションでは、長いシーケンスのMAEは、転送中に余分な計算コストを伴わずに、すべての実験的なセットアップに対して一貫した利得を示す。
長系列事前学習は,検出とセグメント化に最も有益であると考えられるが,標準画像サイズを維持し,シーケンス長を増加させるだけで,imagenet-1k分類において強い結果が得られる。
私たちの発見がコンピュータビジョンのスケーリングに新たな洞察と方法をもたらすことを願っています。
関連論文リスト
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.36623165770936]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing [5.325585142755542]
我々は,Masked Auto-Encoder (MAE)をベースとした自己教師型モデルであるCross-Scale MAEを提案する。
実験により,Cross-Scale MAEは標準的なMAEと他の最先端のリモートセンシングMAE法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-29T03:06:19Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [69.85171104474558]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing [16.683132793313693]
Masked AutoEncoder (MAE) はリモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
本研究では,多スペクトル画像に対する向き付けされた粒度(HOG)と正規化差分指標(NDI)の組合せを再構成し,SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
論文 参考訳(メタデータ) (2023-10-28T09:43:13Z) - Longer-range Contextualized Masked Autoencoder [43.42706719923587]
Masked Image Modeling (MIM)は、有望な自己教師型学習(SSL)戦略として登場した。
我々はLonger-range Conized Masked Autoencoder (LC-MAE)という自己教師型学習フレームワークを提案する。
本手法は,複数ビューで全画素から学習すると同時に,スパース画素から局所表現を学習する。
論文 参考訳(メタデータ) (2023-10-20T15:42:47Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。