論文の概要: PASS: An ImageNet replacement for self-supervised pretraining without
humans
- arxiv url: http://arxiv.org/abs/2109.13228v1
- Date: Mon, 27 Sep 2021 17:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 17:46:32.769981
- Title: PASS: An ImageNet replacement for self-supervised pretraining without
humans
- Title(参考訳): pass:人間なしでの自己教師付き事前訓練のためのimagenet代替
- Authors: Yuki M. Asano, Christian Rupprecht, Andrew Zisserman, Andrea Vedaldi
- Abstract要約: 本稿では,自己スーパービジョンのためのHumAnsを含まないPASS:Picturesを提案する。
PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。
PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。
PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
- 参考スコア(独自算出の注目度): 152.3252728876108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision has long relied on ImageNet and other large datasets of
images sampled from the Internet for pretraining models. However, these
datasets have ethical and technical shortcomings, such as containing personal
information taken without consent, unclear license usage, biases, and, in some
cases, even problematic image content. On the other hand, state-of-the-art
pretraining is nowadays obtained with unsupervised methods, meaning that
labelled datasets such as ImageNet may not be necessary, or perhaps not even
optimal, for model pretraining. We thus propose an unlabelled dataset PASS:
Pictures without humAns for Self-Supervision. PASS only contains images with
CC-BY license and complete attribution metadata, addressing the copyright
issue. Most importantly, it contains no images of people at all, and also
avoids other types of images that are problematic for data protection or
ethics. We show that PASS can be used for pretraining with methods such as
MoCo-v2, SwAV and DINO. In the transfer learning setting, it yields similar
downstream performances to ImageNet pretraining even on tasks that involve
humans, such as human pose estimation. PASS does not make existing datasets
obsolete, as for instance it is insufficient for benchmarking. However, it
shows that model pretraining is often possible while using safer data, and it
also provides the basis for a more robust evaluation of pretraining methods.
- Abstract(参考訳): コンピュータビジョンは長い間、事前トレーニングモデルのためにインターネットからサンプリングされたImageNetや他の大規模な画像データセットに依存してきた。
しかしながら、これらのデータセットには、同意なしに取得した個人情報、ライセンス使用の明確さ、バイアス、さらには問題のある画像コンテンツなど、倫理的および技術的な欠点がある。
一方、現在最先端の事前トレーニングは教師なしの手法で得られており、モデル事前トレーニングにはImageNetのようなラベル付きデータセットは必要ないかもしれないし、おそらく最適ではないかもしれない。
そこで我々は,自己スーパービジョンのためのラベルなしデータセットパスを提案する。
PASSはCC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。
最も重要なのは、人間の画像は全くなく、データ保護や倫理に問題のある他の種類の画像も避けていることだ。
PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。
転送学習環境では、人間のポーズ推定のような人間を含むタスクでも、imagenetの事前学習と同様の下流パフォーマンスが得られる。
PASSは既存のデータセットを時代遅れにしない。
しかし,より安全なデータを用いてモデルの事前学習が可能であり,事前学習手法のより堅牢な評価の基盤も提供する。
関連論文リスト
- DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - ConfounderGAN: Protecting Image Data Privacy with Causal Confounder [85.6757153033139]
本稿では,GAN(Generative Adversarial Network)のConfounderGANを提案する。
実験は、3つの自然なオブジェクトデータセットと3つの医療データセットからなる6つの画像分類データセットで実施される。
論文 参考訳(メタデータ) (2022-12-04T08:49:14Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - VTBR: Semantic-based Pretraining for Person Re-Identification [14.0819152482295]
本稿では,VTBRという純粋意味に基づく事前学習手法を提案する。
我々は、FinGPR-Cデータセットのキャプションをスクラッチから畳み込みネットワークをトレーニングし、それらを下流のRe-IDタスクに転送する。
論文 参考訳(メタデータ) (2021-10-11T08:19:45Z) - Anti-Neuron Watermarking: Protecting Personal Data Against Unauthorized
Neural Model Training [50.308254937851814]
個人データ(画像など)は、許可なくディープニューラルネットワークモデルをトレーニングするために不適切に利用することができる。
特殊な線形色変換を使用して透かしシグネチャをユーザイメージに埋め込むことで、ニューラルモデルはそのようなシグネチャでインプリントされる。
これは、ニューラルネットワークトレーニングにおいて、ユーザの個人情報を不正使用から保護する最初の作業である。
論文 参考訳(メタデータ) (2021-09-18T22:10:37Z) - ImageNet-21K Pretraining for the Masses [12.339884639594624]
ImageNet-1Kは、コンピュータビジョンタスクのためのディープラーニングモデルを事前訓練するための主要なデータセットである。
ImageNet-21Kデータセットにはより多くの写真とクラスが含まれている。
本稿では,ImageNet-21Kの高品質な事前トレーニングを実現することを目的とする。
論文 参考訳(メタデータ) (2021-04-22T10:10:14Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。