論文の概要: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation
- arxiv url: http://arxiv.org/abs/2310.08182v2
- Date: Thu, 18 Apr 2024 11:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:49:22.922303
- Title: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation
- Title(参考訳): XIMAGENET-12: モデルロバストネス評価のための説明可能なAIベンチマークデータセット
- Authors: Qiang Li, Dan Zhang, Shengzhao Lei, Xun Zhao, Porawit Kamnoedboon, WeiWei Li, Junhao Dong, Shuyan Li,
- Abstract要約: XIMAGENET-12は、200K以上の画像と15,410のマニュアルセマンティックアノテーションで構成されている。
本研究では、ロバスト性評価のための定量的基準を開発し、様々な条件下での視覚モデルの性能の微妙な理解を可能にする。
- 参考スコア(独自算出の注目度): 19.399688660643367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the promising performance of existing visual models on public benchmarks, the critical assessment of their robustness for real-world applications remains an ongoing challenge. To bridge this gap, we propose an explainable visual dataset, XIMAGENET-12, to evaluate the robustness of visual models. XIMAGENET-12 consists of over 200K images with 15,410 manual semantic annotations. Specifically, we deliberately selected 12 categories from ImageNet, representing objects commonly encountered in practical life. To simulate real-world situations, we incorporated six diverse scenarios, such as overexposure, blurring, and color changes, etc. We further develop a quantitative criterion for robustness assessment, allowing for a nuanced understanding of how visual models perform under varying conditions, notably in relation to the background. We make the XIMAGENET-12 dataset and its corresponding code openly accessible at \url{https://sites.google.com/view/ximagenet-12/home}. We expect the introduction of the XIMAGENET-12 dataset will empower researchers to thoroughly evaluate the robustness of their visual models under challenging conditions.
- Abstract(参考訳): 既存のビジュアルモデルが公的なベンチマークで有望なパフォーマンスを保っているにもかかわらず、現実のアプリケーションに対する堅牢性に対する批判的な評価は、現在も進行中の課題である。
このギャップを埋めるために、視覚モデルの堅牢性を評価するために、説明可能なビジュアルデータセットXIMAGENET-12を提案する。
XIMAGENET-12は、200K以上の画像と15,410のマニュアルセマンティックアノテーションで構成されている。
具体的には、ImageNetから12のカテゴリを意図的に選択し、実際に遭遇するオブジェクトを表現した。
現実世界の状況をシミュレートするために、オーバー露光、ぼやけ、色の変化など、さまざまなシナリオを6つ取り入れました。
さらに、ロバスト性評価のための定量的基準を開発し、特に背景に関して、様々な条件下で視覚モデルがどのように機能するかの微妙な理解を可能にする。
我々は XIMAGENET-12 データセットとその対応するコードを \url{https://sites.google.com/view/ximagenet-12/home} で公開しています。
XIMAGENET-12データセットの導入により、研究者は困難条件下での視覚モデルの堅牢性を徹底的に評価できるようになると期待している。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Ambiguous Images With Human Judgments for Robust Visual Event
Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。
すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。
このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文 参考訳(メタデータ) (2022-10-06T17:52:20Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot
Retrieval of Images from Textual Descriptions [13.15755441853131]
画像検索のためのゼロショットテキストのための新しいGANモデルを提案する。
提案モデルは期待最大化フレームワークを用いて訓練される。
複数のベンチマークデータセットの実験により,提案したモデルは,画像検索モデルに対して,最先端のゼロショットテキストよりも快適に優れていることが示された。
論文 参考訳(メタデータ) (2020-07-23T18:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。