論文の概要: Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision
- arxiv url: http://arxiv.org/abs/2202.08360v1
- Date: Wed, 16 Feb 2022 22:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-19 05:10:16.414347
- Title: Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision
- Title(参考訳): 監視のない未修正画像に事前学習する場合、ビジョンモデルはより堅牢で公平である
- Authors: Priya Goyal, Quentin Duval, Isaac Seessel, Mathilde Caron, Mannat
Singh, Ishan Misra, Levent Sagun, Armand Joulin, Piotr Bojanowski
- Abstract要約: 差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
- 参考スコア(独自算出の注目度): 38.197297667550885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discriminative self-supervised learning allows training models on any random
group of internet images, and possibly recover salient information that helps
differentiate between the images. Applied to ImageNet, this leads to object
centric features that perform on par with supervised features on most
object-centric downstream tasks. In this work, we question if using this
ability, we can learn any salient and more representative information present
in diverse unbounded set of images from across the globe. To do so, we train
models on billions of random images without any data pre-processing or prior
assumptions about what we want the model to learn. We scale our model size to
dense 10 billion parameters to avoid underfitting on a large data size. We
extensively study and validate our model performance on over 50 benchmarks
including fairness, robustness to distribution shift, geographical diversity,
fine grained recognition, image copy detection and many image classification
datasets. The resulting model, not only captures well semantic information, it
also captures information about artistic style and learns salient information
such as geolocations and multilingual word embeddings based on visual content
only. More importantly, we discover that such model is more robust, more fair,
less harmful and less biased than supervised models or models trained on object
centric datasets such as ImageNet.
- Abstract(参考訳): 識別的自己教師付き学習は、インターネットイメージの任意のランダムなグループでのトレーニングモデルを可能にし、画像間の区別に役立つサルエント情報を回収する可能性がある。
これはimagenetに適用され、ほとんどのオブジェクト中心のダウンストリームタスクの教師付き機能と同等の性能を持つオブジェクト中心の機能に繋がる。
本研究では,この能力を用いて,世界中から多彩な非有界画像群に存在する有能で代表的な情報を学習できるかを問う。
そのために、データの事前処理や、モデルを学習したいものに関する事前の仮定なしに、何十億ものランダムなイメージでモデルをトレーニングする。
モデルサイズを100億のパラメータにスケールし、大きなデータサイズに過小適合しないようにします。
我々は,公平性,分散シフトに対する堅牢性,地理的多様性,微粒化認識,画像コピー検出,多くの画像分類データセットを含む50以上のベンチマークで,モデル性能を広範囲に研究し,検証した。
得られたモデルは、セマンティックな情報をうまくキャプチャするだけでなく、芸術的スタイルに関する情報も取得し、視覚コンテンツのみに基づいて位置情報や多言語単語の埋め込みなどの有能な情報を学ぶ。
さらに重要なのは、イメージネットのようなオブジェクト中心のデータセットでトレーニングされた教師付きモデルやモデルよりも、そのようなモデルはより堅牢で、公平で、有害ではなく、バイアスが少ないことです。
関連論文リスト
- Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。