論文の概要: Predicting masked tokens in stochastic locations improves masked image
modeling
- arxiv url: http://arxiv.org/abs/2308.00566v1
- Date: Mon, 31 Jul 2023 17:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:53:19.066283
- Title: Predicting masked tokens in stochastic locations improves masked image
modeling
- Title(参考訳): 確率的位置におけるマスクトークンの予測によるマスク画像モデリングの改善
- Authors: Amir Bar, Florian Bordes, Assaf Shocher, Mahmoud Assran, Pascal
Vincent, Nicolas Ballas, Trevor Darrell, Amir Globerson, Yann LeCun
- Abstract要約: Masked Image Modeling (MIM) は、正確な位置のセマンティックコンテンツを予測する必要があるため、難しい。
我々は,この課題に対処するモデルであるFlexPredictを提案する。
提案手法は,MIMベースラインと比較して,タスクのダウンストリーム性能を向上する。
- 参考スコア(独自算出の注目度): 93.91455375458335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning is a promising paradigm in deep learning that
enables learning from unlabeled data by constructing pretext tasks that require
learning useful representations. In natural language processing, the dominant
pretext task has been masked language modeling (MLM), while in computer vision
there exists an equivalent called Masked Image Modeling (MIM). However, MIM is
challenging because it requires predicting semantic content in accurate
locations. E.g, given an incomplete picture of a dog, we can guess that there
is a tail, but we cannot determine its exact location. In this work, we propose
FlexPredict, a stochastic model that addresses this challenge by incorporating
location uncertainty into the model. Specifically, we condition the model on
stochastic masked token positions to guide the model toward learning features
that are more robust to location uncertainties. Our approach improves
downstream performance on a range of tasks, e.g, compared to MIM baselines,
FlexPredict boosts ImageNet linear probing by 1.6% with ViT-B and by 2.5% for
semi-supervised video segmentation using ViT-L.
- Abstract(参考訳): 自己教師付き学習は、有用な表現の学習を必要とするプレテキストタスクを構築することによって、ラベルのないデータから学習できる、ディープラーニングにおける有望なパラダイムである。
自然言語処理において、主要なプリテキストタスクはマスク付き言語モデリング(mlm)であり、コンピュータビジョンにはマスク付き画像モデリング(mim)と呼ばれる等価なものがある。
しかし、MIMは正確な位置のセマンティックコンテンツを予測する必要があるため、難しい。
例えば、犬の写真が不完全な場合、尾があると推測できるが、正確な位置は決定できない。
本稿では,この課題に対処する確率モデルであるFlexPredictを提案する。
具体的には,確率的マスキングトークン位置をモデルに設定し,位置不確実性に対してより頑健な学習機能へとモデルを導出する。
提案手法は,例えばMIMベースラインと比較して,ダウンストリーム性能を向上させる。FlexPredictは,VT-Bで1.6%,VT-Lで半教師付きビデオセグメンテーションで2.5%向上する。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Keypoint Aware Masked Image Modelling [0.34530027457862006]
KAMIMは16.12%から33.97%に改善され、ImageNet-1Kデータセットで同じ数のエポックでトレーニングされた際には76.78%から77.3%まで微調整精度が向上した。
また,KAMIMを用いて訓練したViT-Bの学習表現を解析し,その行動に関する対照的な学習と同様の行動を示す。
論文 参考訳(メタデータ) (2024-07-18T19:41:46Z) - The Entropy Enigma: Success and Failure of Entropy Minimization [30.083332640328642]
エントロピー最小化(EM)は、テスト時に新しいデータに直面した場合に、分類モデルの精度を高めるために頻繁に使用される。
EMがいくつかのステップでモデルを適用するときに機能する理由と、多くのステップで適応した後に最終的に失敗する理由を分析します。
本稿では,与えられた任意のデータセットに対して,ラベルにアクセスすることなくモデルの精度を推定する,実用的な問題を解決する方法を提案する。
論文 参考訳(メタデータ) (2024-05-08T12:26:15Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Image to Sphere: Learning Equivariant Features for Efficient Pose
Prediction [3.823356975862006]
単一点推定を予測する方法は、対称性を持つ物体のポーズをうまく予測せず、不確実性を表現できない。
画像領域から3次元回転多様体への特徴量の新しいマッピングを提案する。
本稿では,オブジェクト指向予測における本手法の有効性を実証し,PASCAL3D+データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T16:23:19Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。