論文の概要: Toward Formal Data Set Verification for Building Effective Machine
Learning Models
- arxiv url: http://arxiv.org/abs/2108.11220v1
- Date: Wed, 25 Aug 2021 13:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 12:53:50.171603
- Title: Toward Formal Data Set Verification for Building Effective Machine
Learning Models
- Title(参考訳): 効率的な機械学習モデル構築のための形式的データセット検証に向けて
- Authors: Jorge L\'opez, Maxime Labonne and Claude Poletti
- Abstract要約: 本稿では,データセット上で任意に記述されたプロパティの集合を検証するための公式なアプローチを提案する。
提案手法は,データセットの1次論理式への変換に依存する。
z3ソルバを使った試作ツールが開発されている。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In order to properly train a machine learning model, data must be properly
collected. To guarantee a proper data collection, verifying that the collected
data set holds certain properties is a possible solution. For example,
guaranteeing that the data set contains samples across the whole input space,
or that the data set is balanced w.r.t. different classes. We present a formal
approach for verifying a set of arbitrarily stated properties over a data set.
The proposed approach relies on the transformation of the data set into a first
order logic formula, which can be later verified w.r.t. the different
properties also stated in the same logic. A prototype tool, which uses the z3
solver, has been developed; the prototype can take as an input a set of
properties stated in a formal language and formally verify a given data set
w.r.t. to the given set of properties. Preliminary experimental results show
the feasibility and performance of the proposed approach, and furthermore the
flexibility for expressing properties of interest.
- Abstract(参考訳): 機械学習モデルを適切にトレーニングするには、データを適切に収集する必要がある。
適切なデータ収集を保証するため、収集されたデータセットが特定のプロパティを保持することが可能であることを検証する。
例えば、データセットが入力空間全体にわたるサンプルを含むこと、あるいはデータセットがw.r.tと均衡していることを保証する。
クラスが違う。
本稿では,データセット上の任意のプロパティの集合を検証するための公式なアプローチを提案する。
提案手法は、データセットの第一次論理式への変換に依存しており、後述の w.r.t で検証できる。
異なる性質が同じ論理で述べられています
z3ソルバを使用するプロトタイプツールが開発され、プロトタイプは形式言語で記述されたプロパティのセットを入力として、与えられたデータセット w.r.t を正式に検証することができる。
与えられたプロパティのセットに。
予備実験の結果,提案手法の有効性と性能,さらに興味のある特性を表現する柔軟性が示された。
関連論文リスト
- Balancing Fairness and Accuracy in Data-Restricted Binary Classification [14.439413517433891]
本稿では,4つの実践シナリオ下での精度と公平性のトレードオフをモデル化する枠組みを提案する。
3つのデータセットの実験では、トレードオフを定量化するためのツールとして提案されたフレームワークの有用性が示されている。
論文 参考訳(メタデータ) (2024-03-12T15:01:27Z) - Generating Survival Interpretable Trajectories and Data [2.4861619769660637]
本稿では,合成データセットと実データセットの数値実験を用いて,提案モデルの有効性と特性を実証する。
提案したモデルを実装するアルゴリズムのコードが公開されている。
論文 参考訳(メタデータ) (2024-02-19T18:02:10Z) - Controllable Data Generation Via Iterative Data-Property Mutual Mappings [13.282793266390316]
本稿では,VAEベースのデータジェネレータを特性制御性で拡張し,乱れを確実にするフレームワークを提案する。
提案フレームワークは, 特性誤差, ゆがみ, 生成品質, トレーニング時間に関する性能評価を行うために, VAEベースの4つの制御可能ジェネレータ上に実装されている。
論文 参考訳(メタデータ) (2023-10-11T17:34:56Z) - Attesting Distributional Properties of Training Data for Machine Learning [15.2927830843089]
いくつかの管轄区域は、機械学習の規制フレームワークを準備している。
ドラフト規則は、トレーニングデータセットが特定の分散特性を持つことを示すために、モデルトレーナーが必要であることを示している。
本研究では,証明者がデータを明らかにすることなく,学習データの適切な分布特性を検証者に示すことのできる特性証明の概念を提案する。
論文 参考訳(メタデータ) (2023-08-18T13:33:02Z) - Example-Based Explainable AI and its Application for Remote Sensing
Image Classification [0.0]
入力データに類似したトレーニングデータセットのインスタンスの例を示す。
センチネル2衛星からのリモートセンシング画像データセットを用いて、この概念が実証された。
論文 参考訳(メタデータ) (2023-02-03T03:48:43Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - DIVA: Dataset Derivative of a Learning Task [108.18912044384213]
本稿では,データセットに関する学習課題の微分を計算する手法を提案する。
学習タスクは、トレーニングセットから検証エラーまでの関数であり、トレーニングされたディープニューラルネットワーク(DNN)で表現することができる。
は、トレーニングされたモデルを中心に計算され、各トレーニングサンプルの重みの外れ値がバリデーションエラーにどのように影響するかを知らせる線形演算子である。
論文 参考訳(メタデータ) (2021-11-18T16:33:12Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。