論文の概要: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness
Evaluation
- arxiv url: http://arxiv.org/abs/2310.08182v1
- Date: Thu, 12 Oct 2023 10:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:02:41.880317
- Title: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness
Evaluation
- Title(参考訳): XIMAGENET-12: モデルロバストネス評価のための説明可能なAIベンチマークデータセット
- Authors: Qiang Li, Dan Zhang, Shengzhao Lei, Xun Zhao, Shuyan Li, Porawit
Kamnoedboon, WeiWei Li
- Abstract要約: XIMAGENET-12は200K以上の画像と15,600のマニュアルセマンティックアノテーションを備えた、説明可能なベンチマークデータセットである。
ImageNetから12のカテゴリをカバーし、実際に遭遇するオブジェクトを表現します。
本稿では,モデル生成能力評価を超えて,新しいロバスト性基準を提案する。
- 参考スコア(独自算出の注目度): 18.36367460782352
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The lack of standardized robustness metrics and the widespread reliance on
numerous unrelated benchmark datasets for testing have created a gap between
academically validated robust models and their often problematic practical
adoption. To address this, we introduce XIMAGENET-12, an explainable benchmark
dataset with over 200K images and 15,600 manual semantic annotations. Covering
12 categories from ImageNet to represent objects commonly encountered in
practical life and simulating six diverse scenarios, including overexposure,
blurring, color changing, etc., we further propose a novel robustness criterion
that extends beyond model generation ability assessment. This benchmark
dataset, along with related code, is available at
https://sites.google.com/view/ximagenet-12/home. Researchers and practitioners
can leverage this resource to evaluate the robustness of their visual models
under challenging conditions and ultimately benefit from the demands of
practical computer vision systems.
- Abstract(参考訳): 標準ロバスト性メトリクスの欠如と、テストのための多数の無関係なベンチマークデータセットへの広範な依存により、学術的に検証されたロバストモデルと、しばしば問題となる実用的採用との間にギャップが生じた。
XIMAGENET-12は200K以上の画像と15,600のマニュアルセマンティックアノテーションを備えた,説明可能なベンチマークデータセットである。
imagenetから12のカテゴリをカバーして,実生活でよく遭遇するオブジェクトを表現し,過剰露出,ぼやけ,色変化など6つのシナリオをシミュレートし,さらに,モデル生成能力評価を超越した新たなロバストネス基準を提案する。
このベンチマークデータセットは、関連するコードとともに、https://sites.google.com/view/ximagenet-12/homeで利用可能である。
研究者や実践者は、このリソースを利用して、困難な条件下での視覚モデルの堅牢性を評価し、最終的には実用的なコンピュータビジョンシステムの要求から恩恵を受けることができる。
関連論文リスト
- EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。
EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。
EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文 参考訳(メタデータ) (2024-12-13T23:15:35Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot
Retrieval of Images from Textual Descriptions [13.15755441853131]
画像検索のためのゼロショットテキストのための新しいGANモデルを提案する。
提案モデルは期待最大化フレームワークを用いて訓練される。
複数のベンチマークデータセットの実験により,提案したモデルは,画像検索モデルに対して,最先端のゼロショットテキストよりも快適に優れていることが示された。
論文 参考訳(メタデータ) (2020-07-23T18:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。