論文の概要: Adversarial Learning for Feature Shift Detection and Correction
- arxiv url: http://arxiv.org/abs/2312.04546v1
- Date: Thu, 7 Dec 2023 18:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:34:47.655981
- Title: Adversarial Learning for Feature Shift Detection and Correction
- Title(参考訳): 特徴シフト検出と補正のための逆学習
- Authors: Miriam Barrabes, Daniel Mas Montserrat, Margarita Geleta, Xavier
Giro-i-Nieto, Alexander G. Ioannidis
- Abstract要約: 機能シフトは、複数のセンサデータ、一部のセンサが機能不全である、あるいは構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った機能につながる、など、多くのデータセットで起こりうる。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器から得られる情報を用いて,破損した特徴を検知し,それらを修正することにより,データセット間の分布シフトを除去する。
- 参考スコア(独自算出の注目度): 45.65548560695731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data shift is a phenomenon present in many real-world applications, and while
there are multiple methods attempting to detect shifts, the task of localizing
and correcting the features originating such shifts has not been studied in
depth. Feature shifts can occur in many datasets, including in multi-sensor
data, where some sensors are malfunctioning, or in tabular and structured data,
including biomedical, financial, and survey data, where faulty standardization
and data processing pipelines can lead to erroneous features. In this work, we
explore using the principles of adversarial learning, where the information
from several discriminators trained to distinguish between two distributions is
used to both detect the corrupted features and fix them in order to remove the
distribution shift between datasets. We show that mainstream supervised
classifiers, such as random forest or gradient boosting trees, combined with
simple iterative heuristics, can localize and correct feature shifts,
outperforming current statistical and neural network-based techniques. The code
is available at https://github.com/AI-sandbox/DataFix.
- Abstract(参考訳): データシフトは多くの実世界のアプリケーションに存在する現象であり、シフトを検知しようとする複数の方法があるが、そのようなシフトから生じる特徴の局所化と修正のタスクは深く研究されていない。
センサーの一部が故障しているマルチセンサーデータや、バイオメディカル、ファイナンシャル、サーベイデータを含む表や構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った特徴をもたらす可能性のあるデータなど、多くのデータセットで機能シフトが発生する可能性がある。
そこで本研究では,2つの分布を区別するために訓練された複数の識別器からの情報を用いて,破損した特徴の検出と修正を行い,データセット間の分布シフトを除去する。
ランダムフォレストや勾配ブースティングツリーなどの主観的教師付き分類器と単純な反復ヒューリスティックを組み合わせることで,特徴シフトの局所化と修正が可能となり,現在の統計的手法やニューラルネットワークに基づく手法を上回っている。
コードはhttps://github.com/AI-sandbox/DataFix.comで入手できる。
関連論文リスト
- Binary Quantification and Dataset Shift: An Experimental Investigation [54.14283123210872]
量子化は教師付き学習タスクであり、未学習データの集合のクラス有病率の予測器を訓練する。
定量化と他のタイプのデータセットシフトの関係は、いまだ大きく、未調査のままである。
本稿では,これらのシフトに影響を受けるデータセットの生成プロトコルを確立することにより,データセットシフトの種類を詳細に分類する手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:11:27Z) - Informative regularization for a multi-layer perceptron RR Lyrae
classifier under data shift [3.303002683812084]
本稿では,情報正規化とアドホックなトレーニング手法に基づくスケーラブルで容易に適応可能なアプローチを提案し,シフト問題を緩和する。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。
論文 参考訳(メタデータ) (2023-03-12T02:49:19Z) - A unified framework for dataset shift diagnostics [2.449909275410288]
教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:34:45Z) - Transfer Learning for Fault Diagnosis of Transmission Lines [55.971052290285485]
事前学習されたLeNet-5畳み込みニューラルネットワークに基づく新しい伝達学習フレームワークを提案する。
ソースニューラルネットワークから知識を転送して、異種ターゲットデータセットを予測することで、異なる伝送ラインの長さとインピーダンスの障害を診断することができる。
論文 参考訳(メタデータ) (2022-01-20T06:36:35Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Graph Neural Network-Based Anomaly Detection in Multivariate Time Series [17.414474298706416]
我々は,高次元時系列データにおける異常を検出する新しい方法を開発した。
我々のアプローチは、構造学習アプローチとグラフニューラルネットワークを組み合わせている。
本研究では,本手法がベースラインアプローチよりも高精度に異常を検出することを示す。
論文 参考訳(メタデータ) (2021-06-13T09:07:30Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Robust Classification under Class-Dependent Domain Shift [29.54336432319199]
本稿では,クラス依存ドメインシフト(class-dependent domain shift)と呼ぶ,特別なタイプのデータセットシフトについて検討する。
入力データはラベルに依存し、データのシフトは既知の変数によって完全に説明され、シフトを制御する変数はラベルに依存することができ、ラベル分布にシフトはない。
論文 参考訳(メタデータ) (2020-07-10T12:26:57Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。