論文の概要: AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding
- arxiv url: http://arxiv.org/abs/2401.06462v3
- Date: Sat, 21 Dec 2024 02:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:29.247782
- Title: AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding
- Title(参考訳): AttributionScanner: メタデータフリースライス検索によるモデル検証のためのビジュアル分析システム
- Authors: Xiwei Xuan, Jorge Piazentin Ono, Liang Gou, Kwan-Liu Ma, Liu Ren,
- Abstract要約: データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
- 参考スコア(独自算出の注目度): 29.07617945233152
- License:
- Abstract: Data slice finding is an emerging technique for validating machine learning (ML) models by identifying and analyzing subgroups in a dataset that exhibit poor performance, often characterized by distinct feature sets or descriptive metadata. However, in the context of validating vision models involving unstructured image data, this approach faces significant challenges, including the laborious and costly requirement for additional metadata and the complex task of interpreting the root causes of underperformance. To address these challenges, we introduce AttributionScanner, an innovative human-in-the-loop Visual Analytics (VA) system, designed for metadata-free data slice finding. Our system identifies interpretable data slices that involve common model behaviors and visualizes these patterns through an Attribution Mosaic design. Our interactive interface provides straightforward guidance for users to detect, interpret, and annotate predominant model issues, such as spurious correlations (model biases) and mislabeled data, with minimal effort. Additionally, it employs a cutting-edge model regularization technique to mitigate the detected issues and enhance the model's performance. The efficacy of AttributionScanner is demonstrated through use cases involving two benchmark datasets, with qualitative and quantitative evaluations showcasing its substantial effectiveness in vision model validation, ultimately leading to more reliable and accurate models.
- Abstract(参考訳): データスライス検索は、しばしば異なる特徴セットや記述メタデータによって特徴づけられる、パフォーマンスの悪いデータセット内のサブグループを特定し分析することで、機械学習(ML)モデルを検証するための新興技術である。
しかし、非構造化画像データを含む視覚モデルの妥当性検証の文脈では、追加メタデータの面倒でコストのかかる要求や、過度なパフォーマンスの根本原因を解釈する複雑なタスクなど、大きな課題に直面している。
これらの課題に対処するために,メタデータのないデータスライス検索用に設計された,革新的なヒューマン・イン・ザ・ループ・ビジュアル・アナリティクス(VA)システムであるAttributionScannerを紹介した。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
我々のインタラクティブインターフェースは、ユーザーが最小限の努力で、刺激的な相関(モデルバイアス)やラベル付きデータなどの主要なモデル問題を検出し、解釈し、注釈を付けるための簡単なガイダンスを提供する。
さらに、検出された問題を緩和し、モデルの性能を高めるために、最先端のモデル正規化技術を採用している。
AttributionScannerの有効性は、2つのベンチマークデータセットを含むユースケースを通じて実証され、質的かつ定量的な評価は、視覚モデルの検証においてその実質的な効果を示し、最終的にはより信頼性が高く正確なモデルをもたらす。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Improving QA Model Performance with Cartographic Inoculation [0.0]
データセットアーティファクト"は、実世界のQA問題に一般化するモデルの能力を低下させる。
逆問題集合を用いてデータセットアーティファクトの影響と頻度を解析する。
課題集合から曖昧な逆数例のモデルを選択的に微調整することにより、大幅な性能改善が可能であることを示す。
論文 参考訳(メタデータ) (2024-01-30T23:08:26Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - AdViCE: Aggregated Visual Counterfactual Explanations for Machine
Learning Model Validation [9.996986104171754]
我々は,ブラックボックスモデルデバッグとバリデーションでユーザをガイドすることを目的とした視覚分析ツールであるAdViCEを紹介する。
1) ユーザ定義データサブセットの意思決定の比較を可能にするインタラクティブな可視化,(2) 反現実的説明の計算と視覚化を行うアルゴリズムとビジュアルデザイン。
論文 参考訳(メタデータ) (2021-09-12T22:52:12Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。