論文の概要: Self-supervised Benchmark Lottery on ImageNet: Do Marginal Improvements Translate to Improvements on Similar Datasets?
- arxiv url: http://arxiv.org/abs/2501.15431v1
- Date: Sun, 26 Jan 2025 07:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:04.440123
- Title: Self-supervised Benchmark Lottery on ImageNet: Do Marginal Improvements Translate to Improvements on Similar Datasets?
- Title(参考訳): ImageNet上での自己教師型ベンチマークロタリー: 類似したデータセットの改善にマージ的改善は対応しているのか?
- Authors: Utku Ozbulak, Esla Timothy Anzaku, Solha Kang, Wesley De Neve, Joris Vankerschaver,
- Abstract要約: 我々は、ImageNetでうまく機能しているように見えるモデルが、類似したデータセットで顕著な性能低下を経験するかどうか検討する。
特に、DINOやSwavのような最先端のフレームワークは、そのパフォーマンスを称賛されているが、パフォーマンスが大幅に低下している。
ベンチマークがImageNetバリデーションセット上でのみ実行される場合、モデルの良質で望ましいプロパティは依然として隠されている、と我々は主張する。
- 参考スコア(独自算出の注目度): 1.3821203559674384
- License:
- Abstract: Machine learning (ML) research strongly relies on benchmarks in order to determine the relative effectiveness of newly proposed models. Recently, a number of prominent research effort argued that a number of models that improve the state-of-the-art by a small margin tend to do so by winning what they call a "benchmark lottery". An important benchmark in the field of machine learning and computer vision is the ImageNet where newly proposed models are often showcased based on their performance on this dataset. Given the large number of self-supervised learning (SSL) frameworks that has been proposed in the past couple of years each coming with marginal improvements on the ImageNet dataset, in this work, we evaluate whether those marginal improvements on ImageNet translate to improvements on similar datasets or not. To do so, we investigate twelve popular SSL frameworks on five ImageNet variants and discover that models that seem to perform well on ImageNet may experience significant performance declines on similar datasets. Specifically, state-of-the-art frameworks such as DINO and Swav, which are praised for their performance, exhibit substantial drops in performance while MoCo and Barlow Twins displays comparatively good results. As a result, we argue that otherwise good and desirable properties of models remain hidden when benchmarking is only performed on the ImageNet validation set, making us call for more adequate benchmarking. To avoid the "benchmark lottery" on ImageNet and to ensure a fair benchmarking process, we investigate the usage of a unified metric that takes into account the performance of models on other ImageNet variant datasets.
- Abstract(参考訳): 機械学習(ML)の研究は、新しく提案されたモデルの相対的有効性を決定するために、ベンチマークに強く依存している。
近年、多くの著名な研究が、最先端を小さなマージンで改善するモデルは、彼らが「ベンチマーク宝くじ」と呼ぶものを獲得することで、そうする傾向にあると主張した。
機械学習とコンピュータビジョンの分野で重要なベンチマークはImageNetで、このデータセットのパフォーマンスに基づいて、新しく提案されたモデルがしばしば展示される。
過去2年間に提案されてきたSSL(セルフ教師あり学習)フレームワークの多さを考えると、ImageNetデータセットの限界的な改善は、ImageNetの限界的な改善が類似したデータセットの改善に繋がるかどうかを評価する。
そのために、ImageNetの5つの変種で一般的なSSLフレームワーク12を調査し、ImageNetでうまく機能しているように見えるモデルが、類似したデータセットで大幅にパフォーマンス低下する可能性があることを発見した。
特に、DINOやSwavのような最先端のフレームワークはパフォーマンスを称賛されているが、MoCoとBarlow Twinsは比較的良い結果を示している。
結果として、ImageNetバリデーションセット上でのみベンチマークを行う場合、モデルの良質で望ましい特性が隠されているため、より適切なベンチマークが求められます。
ImageNetの「ベンチマーク抽選」を回避し、公平なベンチマークプロセスを確保するため、他のImageNet変種データセットのモデルの性能を考慮に入れた統一メトリクスの使用について検討する。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - ImageNot: A contrast with ImageNet preserves model rankings [16.169858780154893]
私たちは、ImageNetのスケールに合わせて設計されたデータセットであるImageNotを紹介します。
長年にわたってImageNetのために開発された主要なモデルアーキテクチャは、ImageNotでトレーニングされ評価された時に同じランクにランク付けされた。
論文 参考訳(メタデータ) (2024-04-02T17:13:04Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Does progress on ImageNet transfer to real-world datasets? [28.918770106968843]
6つの実用的な画像分類データセットに対して,画像ネット事前学習モデルの評価を行った。
複数のデータセットでは、ImageNetの精度が高いモデルでは、継続的にパフォーマンスが向上するわけではない。
将来のベンチマークには、より多様なデータセットが含まれて、学習アルゴリズムを改善するためのより包括的なアプローチが奨励されることを期待しています。
論文 参考訳(メタデータ) (2023-01-11T18:55:53Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。