論文の概要: SPATA: Systematic Pattern Analysis for Detailed and Transparent Data Cards
- arxiv url: http://arxiv.org/abs/2509.26640v1
- Date: Tue, 30 Sep 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.247889
- Title: SPATA: Systematic Pattern Analysis for Detailed and Transparent Data Cards
- Title(参考訳): SPATA:詳細および透明データカードの体系的パターン解析
- Authors: João Vitorino, Eva Maia, Isabel Praça, Carlos Soares,
- Abstract要約: 本稿では,より詳細かつ透明なデータカードを提供するために,SPATA(Systematic Pattern Analysis)を提案する。
SPATAは各データインスタンスのプロジェクションを離散空間に計算し、データ漏洩のリスクを冒さずに分析し、比較することができる。
- 参考スコア(独自算出の注目度): 4.332839547082766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the susceptibility of Artificial Intelligence (AI) to data perturbations and adversarial examples, it is crucial to perform a thorough robustness evaluation before any Machine Learning (ML) model is deployed. However, examining a model's decision boundaries and identifying potential vulnerabilities typically requires access to the training and testing datasets, which may pose risks to data privacy and confidentiality. To improve transparency in organizations that handle confidential data or manage critical infrastructure, it is essential to allow external verification and validation of AI without the disclosure of private datasets. This paper presents Systematic Pattern Analysis (SPATA), a deterministic method that converts any tabular dataset to a domain-independent representation of its statistical patterns, to provide more detailed and transparent data cards. SPATA computes the projection of each data instance into a discrete space where they can be analyzed and compared, without risking data leakage. These projected datasets can be reliably used for the evaluation of how different features affect ML model robustness and for the generation of interpretable explanations of their behavior, contributing to more trustworthy AI.
- Abstract(参考訳): データ摂動や敵対的な例に対する人工知能(AI)の感受性のため、機械学習(ML)モデルがデプロイされる前に、徹底的な堅牢性評価を行うことが不可欠である。
しかしながら、モデルの決定境界を調べて潜在的な脆弱性を特定するには、通常、トレーニングとテストデータセットへのアクセスが必要であり、これはデータプライバシと機密性にリスクをもたらす可能性がある。
機密データを処理したり、重要なインフラストラクチャを管理する組織における透明性を改善するためには、プライベートデータセットを公開することなく、AIの外部検証と検証を可能にすることが不可欠である。
本稿では,任意のグラフデータセットをその統計パターンのドメイン非依存表現に変換する決定論的手法であるシステマティックパターン解析(SPATA)を提案し,より詳細かつ透明なデータカードを提供する。
SPATAは各データインスタンスのプロジェクションを離散空間に計算し、データ漏洩のリスクを冒さずに分析し、比較することができる。
これらのデータセットは、異なる機能がMLモデルの堅牢性にどのように影響するかの評価や、それらの振る舞いの解釈可能な説明の生成に確実に使用することができ、より信頼できるAIに寄与する。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Privacy Preservation through Practical Machine Unlearning [0.0]
本稿では,SISAフレームワークを用いたNative RetrainingやExact Unlearningなどの手法について検討する。
部分的にラベル付けされたデータセットがもたらす課題に対処するために、未学習の原則をPositive Unlabeled (PU) Learningに統合する可能性を探る。
論文 参考訳(メタデータ) (2025-02-15T02:25:27Z) - DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - Data AUDIT: Identifying Attribute Utility- and Detectability-Induced
Bias in Task Models [8.420252576694583]
医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。
提案手法は,データセット属性に関連するリスクを,検出性と実用性の観点から分解する。
本手法を用いて, ほぼ知覚不能なバイアス誘発アーティファクトを確実に同定するスクリーニング手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T16:50:15Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。