論文の概要: Vision Checklist: Towards Testable Error Analysis of Image Models to
Help System Designers Interrogate Model Capabilities
- arxiv url: http://arxiv.org/abs/2201.11674v3
- Date: Mon, 31 Jan 2022 11:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 13:50:00.358732
- Title: Vision Checklist: Towards Testable Error Analysis of Image Models to
Help System Designers Interrogate Model Capabilities
- Title(参考訳): vision checklist: 画像モデルのテスト可能なエラー解析に向けて - システム設計者がモデルの能力に疑問を呈するのに役立つ
- Authors: Xin Du, Benedicte Legastelois, Bhargavi Ganesh, Ajitha Rajan, Hana
Chockler, Vaishak Belle, Stuart Anderson, Subramanian Ramamoorthy
- Abstract要約: Vision Checklistは、堅牢性評価のためにシステムデザイナが使用可能なレポートを生成するために、モデルの能力を疑うためのフレームワークである。
我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。
- 参考スコア(独自算出の注目度): 26.177391265710362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using large pre-trained models for image recognition tasks is becoming
increasingly common owing to the well acknowledged success of recent models
like vision transformers and other CNN-based models like VGG and Resnet. The
high accuracy of these models on benchmark tasks has translated into their
practical use across many domains including safety-critical applications like
autonomous driving and medical diagnostics. Despite their widespread use, image
models have been shown to be fragile to changes in the operating environment,
bringing their robustness into question. There is an urgent need for methods
that systematically characterise and quantify the capabilities of these models
to help designers understand and provide guarantees about their safety and
robustness. In this paper, we propose Vision Checklist, a framework aimed at
interrogating the capabilities of a model in order to produce a report that can
be used by a system designer for robustness evaluations. This framework
proposes a set of perturbation operations that can be applied on the underlying
data to generate test samples of different types. The perturbations reflect
potential changes in operating environments, and interrogate various properties
ranging from the strictly quantitative to more qualitative. Our framework is
evaluated on multiple datasets like Tinyimagenet, CIFAR10, CIFAR100 and
Camelyon17 and for models like ViT and Resnet. Our Vision Checklist proposes a
specific set of evaluations that can be integrated into the previously proposed
concept of a model card. Robustness evaluations like our checklist will be
crucial in future safety evaluations of visual perception modules, and be
useful for a wide range of stakeholders including designers, deployers, and
regulators involved in the certification of these systems. Source code of
Vision Checklist would be open for public use.
- Abstract(参考訳): 視覚トランスフォーマーなどの最近のモデルや、vggやresnetといったcnnベースのモデルの成功により、画像認識タスクに大規模な事前訓練済みモデルを使用することが増えている。
ベンチマークタスクにおけるこれらのモデルの高精度さは、自動運転や医療診断のような安全クリティカルなアプリケーションを含む、多くのドメインで実用化されている。
広く使われているにもかかわらず、画像モデルは運用環境の変化に弱いことが示され、その堅牢性に疑問が呈されている。
設計者が安全性と堅牢性を理解し、保証するために、これらのモデルの能力を体系的に特徴付け、定量化する手法が緊急に必要である。
本稿では,システム設計者がロバスト性評価に使用できるレポートを作成するために,モデルの能力を問うことを目的としたフレームワークであるvision checklistを提案する。
このフレームワークは、異なるタイプのテストサンプルを生成するために基礎となるデータに適用できる一連の摂動操作を提案する。
摂動は運用環境の潜在的な変化を反映し、厳密な量から質的な性質まで様々な特性を問う。
我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。
われわれのvision checklistは、モデルカードのコンセプトに組み込むことのできる、特定の評価セットを提案している。
私たちのチェックリストのようなロバストネス評価は、視覚認識モジュールの将来の安全性評価に不可欠であり、これらのシステムの認証に関わるデザイナー、デプロイ者、規制官を含む幅広い利害関係者に役立ちます。
Vision Checklistのソースコードは一般に公開されている。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models [75.8161094916476]
本稿では,既存の画像分類能力向上のために,事前学習された視覚言語モデル(別名CLIPモデル)の開発方法について検討する。
自律走行とシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Evaluation and Comparison of Visual Language Models for Transportation Engineering Problems [16.49637074299509]
我々は、視覚に基づく輸送工学タスクのための最先端のビジョン言語モデル(VLM)について検討した。
画像分類作業は渋滞検出と亀裂識別を伴い, 物体検出ではヘルメット違反が同定された。
我々はこれらのVLMモデルの性能を評価するために、CLIP、BLIP、OWL-ViT、Llava-Next、およびクローズソースGPT-4oといったオープンソースモデルを適用した。
論文 参考訳(メタデータ) (2024-09-03T20:24:37Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。