論文の概要: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness
Evaluation
- arxiv url: http://arxiv.org/abs/2310.08182v1
- Date: Thu, 12 Oct 2023 10:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:02:41.880317
- Title: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness
Evaluation
- Title(参考訳): XIMAGENET-12: モデルロバストネス評価のための説明可能なAIベンチマークデータセット
- Authors: Qiang Li, Dan Zhang, Shengzhao Lei, Xun Zhao, Shuyan Li, Porawit
Kamnoedboon, WeiWei Li
- Abstract要約: XIMAGENET-12は200K以上の画像と15,600のマニュアルセマンティックアノテーションを備えた、説明可能なベンチマークデータセットである。
ImageNetから12のカテゴリをカバーし、実際に遭遇するオブジェクトを表現します。
本稿では,モデル生成能力評価を超えて,新しいロバスト性基準を提案する。
- 参考スコア(独自算出の注目度): 18.36367460782352
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The lack of standardized robustness metrics and the widespread reliance on
numerous unrelated benchmark datasets for testing have created a gap between
academically validated robust models and their often problematic practical
adoption. To address this, we introduce XIMAGENET-12, an explainable benchmark
dataset with over 200K images and 15,600 manual semantic annotations. Covering
12 categories from ImageNet to represent objects commonly encountered in
practical life and simulating six diverse scenarios, including overexposure,
blurring, color changing, etc., we further propose a novel robustness criterion
that extends beyond model generation ability assessment. This benchmark
dataset, along with related code, is available at
https://sites.google.com/view/ximagenet-12/home. Researchers and practitioners
can leverage this resource to evaluate the robustness of their visual models
under challenging conditions and ultimately benefit from the demands of
practical computer vision systems.
- Abstract(参考訳): 標準ロバスト性メトリクスの欠如と、テストのための多数の無関係なベンチマークデータセットへの広範な依存により、学術的に検証されたロバストモデルと、しばしば問題となる実用的採用との間にギャップが生じた。
XIMAGENET-12は200K以上の画像と15,600のマニュアルセマンティックアノテーションを備えた,説明可能なベンチマークデータセットである。
imagenetから12のカテゴリをカバーして,実生活でよく遭遇するオブジェクトを表現し,過剰露出,ぼやけ,色変化など6つのシナリオをシミュレートし,さらに,モデル生成能力評価を超越した新たなロバストネス基準を提案する。
このベンチマークデータセットは、関連するコードとともに、https://sites.google.com/view/ximagenet-12/homeで利用可能である。
研究者や実践者は、このリソースを利用して、困難な条件下での視覚モデルの堅牢性を評価し、最終的には実用的なコンピュータビジョンシステムの要求から恩恵を受けることができる。
関連論文リスト
- Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot
Retrieval of Images from Textual Descriptions [13.15755441853131]
画像検索のためのゼロショットテキストのための新しいGANモデルを提案する。
提案モデルは期待最大化フレームワークを用いて訓練される。
複数のベンチマークデータセットの実験により,提案したモデルは,画像検索モデルに対して,最先端のゼロショットテキストよりも快適に優れていることが示された。
論文 参考訳(メタデータ) (2020-07-23T18:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。