論文の概要: CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts
- arxiv url: http://arxiv.org/abs/2507.17651v1
- Date: Wed, 23 Jul 2025 16:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.076948
- Title: CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts
- Title(参考訳): CNS-Bench:連続ニュアンスシフトによる画像分類器のロバストネスのベンチマーク
- Authors: Olaf Dünkel, Artur Jesslen, Jiahao Xie, Christian Theobalt, Christian Rupprecht, Adam Kortylewski,
- Abstract要約: 我々は,連続ニュアンスシフトベンチマークであるCNS-Benchを導入し,連続かつ現実的なニュアンスシフトのための画像分類器の堅牢性を定量化する。
本稿では,従来の手法よりも優れたフィルタリング機構を提案し,生成モデルによる信頼性の高いベンチマークを可能にする。
- 参考スコア(独自算出の注目度): 67.48102304531734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important challenge when using computer vision models in the real world is to evaluate their performance in potential out-of-distribution (OOD) scenarios. While simple synthetic corruptions are commonly applied to test OOD robustness, they often fail to capture nuisance shifts that occur in the real world. Recently, diffusion models have been applied to generate realistic images for benchmarking, but they are restricted to binary nuisance shifts. In this work, we introduce CNS-Bench, a Continuous Nuisance Shift Benchmark to quantify OOD robustness of image classifiers for continuous and realistic generative nuisance shifts. CNS-Bench allows generating a wide range of individual nuisance shifts in continuous severities by applying LoRA adapters to diffusion models. To address failure cases, we propose a filtering mechanism that outperforms previous methods, thereby enabling reliable benchmarking with generative models. With the proposed benchmark, we perform a large-scale study to evaluate the robustness of more than 40 classifiers under various nuisance shifts. Through carefully designed comparisons and analyses, we find that model rankings can change for varying shifts and shift scales, which cannot be captured when applying common binary shifts. Additionally, we show that evaluating the model performance on a continuous scale allows the identification of model failure points, providing a more nuanced understanding of model robustness. Project page including code and data: https://genintel.github.io/CNS.
- Abstract(参考訳): 現実世界でコンピュータビジョンモデルを使用する場合の重要な課題は、その性能を潜在的なアウト・オブ・ディストリビューション(OOD)シナリオで評価することである。
単純な合成汚職は、OODの堅牢性をテストするために一般的に応用されるが、現実世界で発生するニュアンスシフトを捉えるのに失敗することが多い。
近年、拡散モデルを用いて、ベンチマークのための現実的な画像を生成するが、それらは二項ニュアンスシフトに制限されている。
本研究では,連続ニュアンスシフトベンチマークであるCNS-Benchを導入し,連続的かつ現実的なニュアンスシフトのための画像分類器のOODロバスト性を定量化する。
CNS-Benchは、拡散モデルにLoRAアダプタを適用することで、連続的な深刻度において幅広い個別ニュアンスシフトを生成することができる。
フェールケースに対処するため,従来の手法よりも優れたフィルタ機構を提案し,生成モデルによる信頼性の高いベンチマークを可能にする。
提案するベンチマークでは,様々なニュアンスシフトの下で40以上の分類器のロバスト性を評価するため,大規模な研究を行っている。
慎重に設計された比較と分析により、モデルランキングは様々なシフトとシフトスケールで変化し、共通のバイナリシフトを適用する際には取得できないことが分かる。
さらに、連続的なスケールでのモデル性能の評価により、モデル故障点の同定が可能であり、モデル堅牢性をより微妙に理解することができることを示す。
コードとデータを含むプロジェクトページ: https://genintel.github.io/CNS。
関連論文リスト
- History-Aware Neural Operator: Robust Data-Driven Constitutive Modeling of Path-Dependent Materials [4.331871667093061]
本研究では、ニューラルネットワークを用いた非弾性材料のデータ駆動モデリングのためのエンドツーエンド学習フレームワークを提案する。
近年のストレス・ストレス・ヒストリーの短い部分から経路依存的な物質応答を予測する自己回帰モデルであるヒストリー・アウェア・ニューラル・オペレータ(HANO)を開発した。
我々は, 脆性固体の弾塑性と進行異方性損傷の2つのベンチマーク問題に対してHANOを評価した。
論文 参考訳(メタデータ) (2025-06-12T05:19:17Z) - Reliably detecting model failures in deployment without labels [10.006585036887929]
本稿では,デプロイ後劣化(PDD)モニタリングの問題点を定式化し,対処する。
本稿では,予測モデルの相違に基づく,実用的で効率的なモニタリングアルゴリズムD3Mを提案する。
標準ベンチマークと実世界の大規模内科データセットによる実証的な結果から,フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2025-06-05T13:56:18Z) - Confidence-aware Denoised Fine-tuning of Off-the-shelf Models for Certified Robustness [56.2479170374811]
我々はFT-CADIS(Fun Fine-Tuning with Confidence-Aware Denoized Image Selection)を紹介する。
FT-CADISは、既成の分類器の信頼性が、視覚的平滑化中の幻覚像を効果的に識別できるという観察に着想を得たものである。
様々なベンチマークにおいて、すべての$ell$-adversary半径にわたる偏微分平滑化法のうち、最先端の証明されたロバスト性を確立している。
論文 参考訳(メタデータ) (2024-11-13T09:13:20Z) - Can Your Generative Model Detect Out-of-Distribution Covariate Shift? [2.0144831048903566]
条件付き正規化フロー(cNFs)を用いたOODセンサデータ検出のための新しい手法を提案する。
CIFAR10 対 CIFAR10-C と ImageNet200 対 ImageNet200-C では,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-09-04T19:27:56Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Characterizing and Understanding the Behavior of Quantized Models for
Reliable Deployment [32.01355605506855]
量子化対応トレーニングは、標準、逆数、ミックスアップトレーニングよりも安定したモデルを生成することができる。
診断は、しばしばトップ1とトップ2の出力確率に近づき、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。
我々は、量子化されたモデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソース化した。
論文 参考訳(メタデータ) (2022-04-08T11:19:16Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。