Fugu-MT 論文翻訳(概要): XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation

論文の概要: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation

arxiv url: http://arxiv.org/abs/2310.08182v1
Date: Thu, 12 Oct 2023 10:17:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 12:02:41.880317
Title: XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation
Title（参考訳）: XIMAGENET-12: モデルロバストネス評価のための説明可能なAIベンチマークデータセット
Authors: Qiang Li, Dan Zhang, Shengzhao Lei, Xun Zhao, Shuyan Li, Porawit Kamnoedboon, WeiWei Li
Abstract要約: XIMAGENET-12は200K以上の画像と15,600のマニュアルセマンティックアノテーションを備えた、説明可能なベンチマークデータセットである。 ImageNetから12のカテゴリをカバーし、実際に遭遇するオブジェクトを表現します。本稿では,モデル生成能力評価を超えて,新しいロバスト性基準を提案する。
参考スコア（独自算出の注目度）: 18.36367460782352
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The lack of standardized robustness metrics and the widespread reliance on numerous unrelated benchmark datasets for testing have created a gap between academically validated robust models and their often problematic practical adoption. To address this, we introduce XIMAGENET-12, an explainable benchmark dataset with over 200K images and 15,600 manual semantic annotations. Covering 12 categories from ImageNet to represent objects commonly encountered in practical life and simulating six diverse scenarios, including overexposure, blurring, color changing, etc., we further propose a novel robustness criterion that extends beyond model generation ability assessment. This benchmark dataset, along with related code, is available at https://sites.google.com/view/ximagenet-12/home. Researchers and practitioners can leverage this resource to evaluate the robustness of their visual models under challenging conditions and ultimately benefit from the demands of practical computer vision systems.
Abstract（参考訳）: 標準ロバスト性メトリクスの欠如と、テストのための多数の無関係なベンチマークデータセットへの広範な依存により、学術的に検証されたロバストモデルと、しばしば問題となる実用的採用との間にギャップが生じた。 XIMAGENET-12は200K以上の画像と15,600のマニュアルセマンティックアノテーションを備えた,説明可能なベンチマークデータセットである。 imagenetから12のカテゴリをカバーして,実生活でよく遭遇するオブジェクトを表現し,過剰露出,ぼやけ,色変化など6つのシナリオをシミュレートし,さらに,モデル生成能力評価を超越した新たなロバストネス基準を提案する。このベンチマークデータセットは、関連するコードとともに、https://sites.google.com/view/ximagenet-12/homeで利用可能である。研究者や実践者は、このリソースを利用して、困難な条件下での視覚モデルの堅牢性を評価し、最終的には実用的なコンピュータビジョンシステムの要求から恩恵を受けることができる。

関連論文リスト

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark [63.97125827026949]
本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。分類概念を理解し、関連する高品質の画像を生成するモデルの能力を評価するベンチマークが提案されている。 9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。
論文参考訳（メタデータ） (2025-03-13T13:37:54Z)
EvalGIM: A Library for Evaluating Generative Image Models [26.631349186382664]
テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。 EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。 EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
論文参考訳（メタデータ） (2024-12-13T23:15:35Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文参考訳（メタデータ） (2024-07-21T18:08:44Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
Ambiguous Images With Human Judgments for Robust Visual Event Classification [34.62731821199598]
我々はあいまいな画像のデータセットを作成し、それらをビデオから抽出したノイズの多い画像の集合であるSQUID-E(Squidy)を作成する。すべての画像は、地上の真理値でアノテートされ、テストセットは、人間の不確実性判定でアノテートされる。このデータセットを用いて、視覚タスクにおける人間の不確実性を特徴づけ、既存の視覚事象分類モデルを評価する。
論文参考訳（メタデータ） (2022-10-06T17:52:20Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。 Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文参考訳（メタデータ） (2021-04-17T23:29:55Z)
Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。日常の状況に物を含むこと。分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20～30%の性能改善が得られます。
論文参考訳（メタデータ） (2021-03-08T23:29:59Z)
ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot Retrieval of Images from Textual Descriptions [13.15755441853131]
画像検索のためのゼロショットテキストのための新しいGANモデルを提案する。提案モデルは期待最大化フレームワークを用いて訓練される。複数のベンチマークデータセットの実験により,提案したモデルは,画像検索モデルに対して,最先端のゼロショットテキストよりも快適に優れていることが示された。
論文参考訳（メタデータ） (2020-07-23T18:50:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。