論文の概要: The Robustness Limits of SoTA Vision Models to Natural Variation
- arxiv url: http://arxiv.org/abs/2210.13604v1
- Date: Mon, 24 Oct 2022 21:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:56:35.818310
- Title: The Robustness Limits of SoTA Vision Models to Natural Variation
- Title(参考訳): SoTAビジョンモデルの自然変動に対するロバスト性限界
- Authors: Mark Ibrahim, Quentin Garrido, Ari Morcos, Diane Bouchacourt
- Abstract要約: 我々は、ポーズ、位置、背景、照明、サイズを制御した700万枚以上の画像のデータセットを開発する。
我々は、視覚変換器(ViT)、マスク付きオートエンコーダ(MAE)などの自己教師型モデルを含む、最近の視覚モデルのカタログを考える。
今日の最高のモデルでさえ、ポーズ、サイズ、バックグラウンドの一般的な変更に対して堅牢ではないことが分かりました。
- 参考スコア(独自算出の注目度): 8.459177309094686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent state-of-the-art vision models introduced new architectures, learning
paradigms, and larger pretraining data, leading to impressive performance on
tasks such as classification. While previous generations of vision models were
shown to lack robustness to factors such as pose, it's unclear the extent to
which this next generation of models are more robust. To study this question,
we develop a dataset of more than 7 million images with controlled changes in
pose, position, background, lighting, and size. We study not only how robust
recent state-of-the-art models are, but also the extent to which models can
generalize variation in factors when they're present during training. We
consider a catalog of recent vision models, including vision transformers
(ViT), self-supervised models such as masked autoencoders (MAE), and models
trained on larger datasets such as CLIP. We find out-of-the-box, even today's
best models are not robust to common changes in pose, size, and background.
When some samples varied during training, we found models required a
significant portion of diversity to generalize -- though eventually robustness
did improve. When diversity is only seen for some classes however, we found
models did not generalize to other classes, unless the classes were very
similar to those seen varying during training. We hope our work will shed
further light on the blind spots of SoTA models and spur the development of
more robust vision models.
- Abstract(参考訳): 最近の最先端のビジョンモデルは、新しいアーキテクチャ、学習パラダイム、より大きな事前学習データを導入し、分類のようなタスクにおける印象的なパフォーマンスをもたらした。
以前の世代の視覚モデルはポーズなどの要因に対する堅牢性が欠如していることが示されているが、この次世代のモデルがどの程度堅牢であるかは明らかではない。
そこで本研究では,ポーズ,位置,背景,照明,サイズを制御した700万枚以上の画像のデータセットを構築した。
我々は、最近の最先端モデルがどれほど堅牢かだけでなく、トレーニング中に存在するときの要因の変化をモデルが一般化できる範囲についても研究している。
視覚変換器(ViT)、マスク付きオートエンコーダ(MAE)などの自己教師型モデル、CLIPなどの大規模データセットでトレーニングされたモデルなど、最近のビジョンモデルのカタログを検討する。
今日の最良のモデルは、ポーズ、サイズ、背景の一般的な変化に対して堅牢ではありません。
トレーニング中にいくつかのサンプルが変化すると、モデルの一般化にはかなりの多様性が必要であることが分かりました。
しかし、多様性が一部のクラスでのみ見られる場合、トレーニング中に見られるクラスと非常によく似たクラスでない限り、モデルが他のクラスに一般化しないことが判明した。
私たちは、SoTAモデルの盲点にさらなる光を当て、より堅牢なビジョンモデルの開発を促進することを願っています。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - Robust Self-Supervised Learning with Lie Groups [9.507267560064669]
ディープラーニングはコンピュータビジョンの顕著な進歩につながった。
モデルは、トレーニング中に見られるものと若干異なるバリエーションを示すと、不安定である。
より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T16:00:49Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。