論文の概要: Stochastic positional embeddings improve masked image modeling
- arxiv url: http://arxiv.org/abs/2308.00566v2
- Date: Tue, 27 Feb 2024 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:39:25.404280
- Title: Stochastic positional embeddings improve masked image modeling
- Title(参考訳): 確率的位置埋め込みはマスク画像モデリングを改善する
- Authors: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal
Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
- Abstract要約: Masked Image Modeling (MIM)は、ラベルなし画像からの学習を可能にする、有望な自己教師型学習アプローチである。
位置埋め込み(StoP)を用いて位置不確実性をMIMに組み込むことを提案する。
StoPは、ロケーション機能への過度な適合を減らし、ロケーションの不確実性に対して堅牢な学習機能に向けてモデルを導く。
- 参考スコア(独自算出の注目度): 95.03491875332034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) is a promising self-supervised learning approach
that enables learning from unlabeled images. Despite its recent success,
learning good representations through MIM remains challenging because it
requires predicting the right semantic content in accurate locations. For
example, given an incomplete picture of a dog, we can guess that there is a
tail, but we cannot determine its exact location. In this work, we propose to
incorporate location uncertainty into MIM by using stochastic positional
embeddings (StoP). Specifically, we condition the model on stochastic masked
token positions drawn from a Gaussian distribution. StoP reduces overfitting to
location features and guides the model toward learning features that are more
robust to location uncertainties. Quantitatively, StoP improves downstream MIM
performance on a variety of downstream tasks, including $+1.7\%$ on ImageNet
linear probing using ViT-B, and $+2.5\%$ for ViT-H using $1\%$ of the data.
- Abstract(参考訳): Masked Image Modeling (MIM)は、ラベルなし画像からの学習を可能にする、有望な自己教師型学習アプローチである。
最近の成功にもかかわらず、正確な場所で適切なセマンティックコンテンツを予測する必要があるため、MIMによる優れた表現の学習は依然として困難である。
例えば、犬の不完全な画像を考えると、尾があると推測できるが、正確な位置を決定することはできない。
本研究では,確率的位置埋め込み(StoP)を用いて位置不確実性をMIMに組み込むことを提案する。
具体的には、ガウス分布から引き出された確率的マスキングトークン位置のモデルを記述する。
StoPは、ロケーション機能への過度な適合を減らし、ロケーションの不確実性に対して堅牢な学習機能に向けてモデルを導く。
定量的には、StoPは様々なダウンストリームタスクのダウンストリームMIM性能を改善しており、例えば、VT-Bを使用したイメージネット線形プローブの$+1.7\%、データの$1\%を使用する$+2.5\%である。
関連論文リスト
- The Entropy Enigma: Success and Failure of Entropy Minimization [30.083332640328642]
エントロピー最小化(EM)は、テスト時に新しいデータに直面した場合に、分類モデルの精度を高めるために頻繁に使用される。
EMがいくつかのステップでモデルを適用するときに機能する理由と、多くのステップで適応した後に最終的に失敗する理由を分析します。
本稿では,与えられた任意のデータセットに対して,ラベルにアクセスすることなくモデルの精度を推定する,実用的な問題を解決する方法を提案する。
論文 参考訳(メタデータ) (2024-05-08T12:26:15Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Image to Sphere: Learning Equivariant Features for Efficient Pose
Prediction [3.823356975862006]
単一点推定を予測する方法は、対称性を持つ物体のポーズをうまく予測せず、不確実性を表現できない。
画像領域から3次元回転多様体への特徴量の新しいマッピングを提案する。
本稿では,オブジェクト指向予測における本手法の有効性を実証し,PASCAL3D+データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T16:23:19Z) - Task-Specific Skill Localization in Fine-tuned Language Models [36.53572616441048]
本稿では,この問題に対するスキルローカライゼーションという用語を紹介する。
単純な最適化は、非常に小さなパラメータのサブセットを特定するために使われる。
この小さなサブセットの微調整された値を事前訓練されたモデルに移植することで、微調整されたモデルとほぼ同等のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-02-13T18:55:52Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。