論文の概要: False perfection in machine prediction: Detecting and assessing
circularity problems in machine learning
- arxiv url: http://arxiv.org/abs/2106.12417v1
- Date: Wed, 23 Jun 2021 14:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 19:01:45.665361
- Title: False perfection in machine prediction: Detecting and assessing
circularity problems in machine learning
- Title(参考訳): 機械予測における偽の完全性:機械学習における循環問題の検出と評価
- Authors: Michael Hagmann, Stefan Riezler
- Abstract要約: 医療情報学や特許法などの重要な応用分野における機械学習の問題点を実証する。
入力データの表現に目的の出力が決定論的に定義されている測定値を含めると、完璧だが円形な予測が導かれる。
実世界のアプリケーションへの研究結果の転送には,データ表現から対象結果を定義する計測を分離することにより,円周性を回避する必要がある,と我々は主張する。
- 参考スコア(独自算出の注目度): 11.878820609988695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms train models from patterns of input data and
target outputs, with the goal of predicting correct outputs for unseen test
inputs. Here we demonstrate a problem of machine learning in vital application
areas such as medical informatics or patent law that consists of the inclusion
of measurements on which target outputs are deterministically defined in the
representations of input data. This leads to perfect, but circular predictions
based on a machine reconstruction of the known target definition, but fails on
real-world data where the defining measurements may not or only incompletely be
available. We present a circularity test that shows, for given datasets and
black-box machine learning models, whether the target functional definition can
be reconstructed and has been used in training. We argue that a transfer of
research results to real-world applications requires to avoid circularity by
separating measurements that define target outcomes from data representations
in machine learning.
- Abstract(参考訳): 機械学習アルゴリズムは、見えないテスト入力の正しい出力を予測することを目的として、入力データとターゲット出力のパターンからモデルをトレーニングする。
本稿では, 医療情報学や特許法などの応用分野において, 入力データの表現において, 目標出力が決定論的に定義された測定値を含むことによる機械学習の問題を示す。
これは、既知の目標定義の機械的再構成に基づく完全だが円形の予測につながるが、定義された測定値が不完全あるいは不完全であるような実世界のデータでは失敗する。
本稿では,任意のデータセットとブラックボックス機械学習モデルに対して,対象の機能定義を再構築可能か,トレーニングに使用しているかを示す循環性テストを行う。
我々は,機械学習におけるデータ表現から対象とする結果を定義することで,研究結果を実世界のアプリケーションに転送するには円周性を回避する必要があると論じる。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Anticipated Network Surveillance -- An extrapolated study to predict
cyber-attacks using Machine Learning and Data Analytics [0.0]
本稿では、複数のデータパラメータに基づいて、ネットワークにおける今後の攻撃を予測する新しい手法について論じる。
提案するモデルは,データセットの事前処理とトレーニング,続いてテストフェーズで構成される。
テストフェーズの結果に基づいて、攻撃につながる可能性のあるイベントクラスを抽出したベストモデルが選択される。
論文 参考訳(メタデータ) (2023-12-27T01:09:11Z) - Validity problems in clinical machine learning by indirect data labeling
using consensus definitions [18.18186817228833]
医学における疾患診断の重要領域における機械学習の有効性を実証する。
トレーニングデータのターゲットラベルが間接測定によって決定されたときに発生するものであり、この間接測定を決定するために必要な基本的な測定が入力データ表現に含まれる。
論文 参考訳(メタデータ) (2023-11-06T11:14:48Z) - Task-Aware Machine Unlearning and Its Application in Load Forecasting [4.00606516946677]
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価することにより,性能認識アルゴリズムを提案する。
リアルな負荷データセットを用いて,線形,CNN,Mixerベースの負荷予測器上で,未学習アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-08-28T08:50:12Z) - Machine Unlearning for Causal Inference [0.6621714555125157]
モデルが与えられたユーザに関する情報(マシンアンラーニング)の学習/取得の一部を忘れることが重要である。
本稿では、因果推論のための機械学習の概念、特に確率スコアマッチングと治療効果推定について紹介する。
この研究で使用されるデータセットは、ジョブトレーニングプログラムの有効性を評価するために広く使用されているデータセットであるLalondeデータセットである。
論文 参考訳(メタデータ) (2023-08-24T17:27:01Z) - TransferD2: Automated Defect Detection Approach in Smart Manufacturing
using Transfer Learning Techniques [1.8899300124593645]
本稿では,ソースオブジェクトのデータセット上の欠陥を正確に識別するトランスファー学習手法であるTransferD2を提案する。
提案手法は,モデルのトレーニングに不十分なデータが得られない欠陥検出アプリケーションに適用可能であり,新たな未知データ中の不完全性を特定するために拡張可能である。
論文 参考訳(メタデータ) (2023-02-26T13:24:46Z) - Prediction-Powered Inference [68.97619568620709]
予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。
このフレームワークは、手段、量子、線形およびロジスティック回帰係数などの量に対して証明可能な信頼区間を計算するための単純なアルゴリズムを生成する。
予測による推論により、研究者は機械学習を使用して、より有効な、よりデータ効率の高い結論を導き出すことができる。
論文 参考訳(メタデータ) (2023-01-23T18:59:28Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。