論文の概要: Stochastic positional embeddings improve masked image modeling
- arxiv url: http://arxiv.org/abs/2308.00566v2
- Date: Tue, 27 Feb 2024 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:39:25.404280
- Title: Stochastic positional embeddings improve masked image modeling
- Title(参考訳): 確率的位置埋め込みはマスク画像モデリングを改善する
- Authors: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal
Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
- Abstract要約: Masked Image Modeling (MIM)は、ラベルなし画像からの学習を可能にする、有望な自己教師型学習アプローチである。
位置埋め込み(StoP)を用いて位置不確実性をMIMに組み込むことを提案する。
StoPは、ロケーション機能への過度な適合を減らし、ロケーションの不確実性に対して堅牢な学習機能に向けてモデルを導く。
- 参考スコア(独自算出の注目度): 95.03491875332034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Image Modeling (MIM) is a promising self-supervised learning approach
that enables learning from unlabeled images. Despite its recent success,
learning good representations through MIM remains challenging because it
requires predicting the right semantic content in accurate locations. For
example, given an incomplete picture of a dog, we can guess that there is a
tail, but we cannot determine its exact location. In this work, we propose to
incorporate location uncertainty into MIM by using stochastic positional
embeddings (StoP). Specifically, we condition the model on stochastic masked
token positions drawn from a Gaussian distribution. StoP reduces overfitting to
location features and guides the model toward learning features that are more
robust to location uncertainties. Quantitatively, StoP improves downstream MIM
performance on a variety of downstream tasks, including $+1.7\%$ on ImageNet
linear probing using ViT-B, and $+2.5\%$ for ViT-H using $1\%$ of the data.
- Abstract(参考訳): Masked Image Modeling (MIM)は、ラベルなし画像からの学習を可能にする、有望な自己教師型学習アプローチである。
最近の成功にもかかわらず、正確な場所で適切なセマンティックコンテンツを予測する必要があるため、MIMによる優れた表現の学習は依然として困難である。
例えば、犬の不完全な画像を考えると、尾があると推測できるが、正確な位置を決定することはできない。
本研究では,確率的位置埋め込み(StoP)を用いて位置不確実性をMIMに組み込むことを提案する。
具体的には、ガウス分布から引き出された確率的マスキングトークン位置のモデルを記述する。
StoPは、ロケーション機能への過度な適合を減らし、ロケーションの不確実性に対して堅牢な学習機能に向けてモデルを導く。
定量的には、StoPは様々なダウンストリームタスクのダウンストリームMIM性能を改善しており、例えば、VT-Bを使用したイメージネット線形プローブの$+1.7\%、データの$1\%を使用する$+2.5\%である。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Keypoint Aware Masked Image Modelling [0.34530027457862006]
KAMIMは16.12%から33.97%に改善され、ImageNet-1Kデータセットで同じ数のエポックでトレーニングされた際には76.78%から77.3%まで微調整精度が向上した。
また,KAMIMを用いて訓練したViT-Bの学習表現を解析し,その行動に関する対照的な学習と同様の行動を示す。
論文 参考訳(メタデータ) (2024-07-18T19:41:46Z) - The Entropy Enigma: Success and Failure of Entropy Minimization [30.083332640328642]
エントロピー最小化(EM)は、テスト時に新しいデータに直面した場合に、分類モデルの精度を高めるために頻繁に使用される。
EMがいくつかのステップでモデルを適用するときに機能する理由と、多くのステップで適応した後に最終的に失敗する理由を分析します。
本稿では,与えられた任意のデータセットに対して,ラベルにアクセスすることなくモデルの精度を推定する,実用的な問題を解決する方法を提案する。
論文 参考訳(メタデータ) (2024-05-08T12:26:15Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Image to Sphere: Learning Equivariant Features for Efficient Pose
Prediction [3.823356975862006]
単一点推定を予測する方法は、対称性を持つ物体のポーズをうまく予測せず、不確実性を表現できない。
画像領域から3次元回転多様体への特徴量の新しいマッピングを提案する。
本稿では,オブジェクト指向予測における本手法の有効性を実証し,PASCAL3D+データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T16:23:19Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。