論文の概要: LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models
- arxiv url: http://arxiv.org/abs/2506.16950v1
- Date: Fri, 20 Jun 2025 12:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.442392
- Title: LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models
- Title(参考訳): LAION-C:Webスケールビジョンモデルのためのアウト・オブ・ディストリビューションベンチマーク
- Authors: Fanfei Li, Thomas Klein, Wieland Brendel, Robert Geirhos, Roland S. Zimmermann,
- Abstract要約: 我々は、ImageNet-Cのベンチマーク代替としてLAION-Cを紹介した。
最先端モデルの包括的評価では、LAION-Cデータセットが現代モデルに重大な課題をもたらすことが判明した。
我々は、OOD一般化におけるパラダイムシフトを観察する:人間よりも優れたモデルから、現在最高の人間のオブザーバに適合または優れたモデルへ。
- 参考スコア(独自算出の注目度): 19.56756019309533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution (OOD) robustness is a desired property of computer vision models. Improving model robustness requires high-quality signals from robustness benchmarks to quantify progress. While various benchmark datasets such as ImageNet-C were proposed in the ImageNet era, most ImageNet-C corruption types are no longer OOD relative to today's large, web-scraped datasets, which already contain common corruptions such as blur or JPEG compression artifacts. Consequently, these benchmarks are no longer well-suited for evaluating OOD robustness in the era of web-scale datasets. Indeed, recent models show saturating scores on ImageNet-era OOD benchmarks, indicating that it is unclear whether models trained on web-scale datasets truly become better at OOD generalization or whether they have simply been exposed to the test distortions during training. To address this, we introduce LAION-C as a benchmark alternative for ImageNet-C. LAION-C consists of six novel distortion types specifically designed to be OOD, even for web-scale datasets such as LAION. In a comprehensive evaluation of state-of-the-art models, we find that the LAION-C dataset poses significant challenges to contemporary models, including MLLMs such as Gemini and GPT-4o. We additionally conducted a psychophysical experiment to evaluate the difficulty of our corruptions for human observers, enabling a comparison of models to lab-quality human robustness data. We observe a paradigm shift in OOD generalization: from humans outperforming models, to the best models now matching or outperforming the best human observers.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)の堅牢性はコンピュータビジョンモデルの望ましい特性である。
モデルロバストネスの改善には、進捗を定量化するために、ロバストネスベンチマークからの高品質な信号が必要である。
ImageNet-CのようなさまざまなベンチマークデータセットがImageNet時代に提案されているが、ImageNet-Cの汚職タイプのほとんどは、現在の大規模なWebスクラッドデータセットと比較してOODではなく、すでにぼやけやJPEG圧縮アーティファクトといった一般的な汚職が含まれている。
その結果、これらのベンチマークは、Webスケールデータセットの時代におけるOODの堅牢性を評価するのに、もはや適していない。
実際、最近のモデルはImageNet-era OODベンチマークで飽和スコアを示しており、WebスケールデータセットでトレーニングされたモデルがOODの一般化において真に優れているか、あるいはトレーニング中に単にテスト歪みに晒されただけなのかは不明である。
そこで我々は,ImageNet-Cのベンチマーク代替としてLAION-Cを紹介した。
LAION-Cは、LAIONのようなWebスケールのデータセットであっても、OOD用に特別に設計された6つの新しい歪みタイプで構成されている。
最先端モデルの包括的評価では、LAION-Cデータセットは、GeminiやGPT-4oといったMLLMなど、現代のモデルに重大な課題をもたらす。
また、人間の観察者に対する汚職の難しさを評価するための心理物理学的な実験を行い、実験室品質の人間の堅牢性データとの比較を可能にした。
我々は、OOD一般化におけるパラダイムシフトを観察する:人間よりも優れたモデルから、現在最高の人間のオブザーバに適合または優れたモデルへ。
関連論文リスト
- Self-supervised Benchmark Lottery on ImageNet: Do Marginal Improvements Translate to Improvements on Similar Datasets? [1.3821203559674384]
我々は、ImageNetでうまく機能しているように見えるモデルが、類似したデータセットで顕著な性能低下を経験するかどうか検討する。
特に、DINOやSwavのような最先端のフレームワークは、そのパフォーマンスを称賛されているが、パフォーマンスが大幅に低下している。
ベンチマークがImageNetバリデーションセット上でのみ実行される場合、モデルの良質で望ましいプロパティは依然として隠されている、と我々は主張する。
論文 参考訳(メタデータ) (2025-01-26T07:19:12Z) - In Search of Forgotten Domain Generalization [20.26519807919284]
Out-of-Domain (OOD) 一般化は、1つ以上のドメインでトレーニングされたモデルが見えないドメインに一般化する能力である。
コンピュータビジョンのImageNet時代において、モデルのOOD性能を測定するための評価セットは、スタイルに関して厳密にOODであるように設計されていた。
基礎モデルや拡張Webスケールデータセットの出現は、この評価プロセスを邪魔している。
論文 参考訳(メタデータ) (2024-10-10T17:50:45Z) - Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation [6.21476985578569]
コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)検出は重要な研究領域である。
SOOD-ImageNetは56のクラスにまたがる1.6万の画像からなる新しいデータセットである。
OOD条件下でのイメージ分類やセマンティックセグメンテーションなどの一般的なコンピュータビジョンタスクのために設計されている。
論文 参考訳(メタデータ) (2024-09-02T09:37:39Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。
提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文 参考訳(メタデータ) (2022-09-13T19:08:30Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Assessing out-of-domain generalization for robust building damage
detection [78.6363825307044]
建築損傷検出は、衛星画像にコンピュータビジョン技術を適用することで自動化することができる。
モデルは、トレーニングで利用可能な災害画像と、新しいイベントの画像の間の分散の変化に対して堅牢でなければならない。
今後はOOD体制に重点を置くべきだと我々は主張する。
論文 参考訳(メタデータ) (2020-11-20T10:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。