論文の概要: Repairing Systematic Outliers by Learning Clean Subspaces in VAEs
- arxiv url: http://arxiv.org/abs/2207.08050v1
- Date: Sun, 17 Jul 2022 01:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 15:01:13.853573
- Title: Repairing Systematic Outliers by Learning Clean Subspaces in VAEs
- Title(参考訳): VAEにおけるクリーン部分空間の学習によるシステム外乱の修復
- Authors: Simao Eduardo, Kai Xu, Alfredo Nazabal, Charles Sutton
- Abstract要約: 本稿では,システムエラーの検出と自動修復のための半教師付きモデルであるクリーンサブスペースバリアオートエンコーダ(VAE)を提案する。
VAEは従来のモデルに比べてラベル付きデータをはるかに少なく、データの2%未満で有効である。
3つの画像データセットを異なるレベルの腐敗とラベル付きセットサイズを持つシナリオで実験する。
- 参考スコア(独自算出の注目度): 31.298063226774115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data cleaning often comprises outlier detection and data repair. Systematic
errors result from nearly deterministic transformations that occur repeatedly
in the data, e.g. specific image pixels being set to default values or
watermarks. Consequently, models with enough capacity easily overfit to these
errors, making detection and repair difficult. Seeing as a systematic outlier
is a combination of patterns of a clean instance and systematic error patterns,
our main insight is that inliers can be modelled by a smaller representation
(subspace) in a model than outliers. By exploiting this, we propose Clean
Subspace Variational Autoencoder (CLSVAE), a novel semi-supervised model for
detection and automated repair of systematic errors. The main idea is to
partition the latent space and model inlier and outlier patterns separately.
CLSVAE is effective with much less labelled data compared to previous related
models, often with less than 2% of the data. We provide experiments using three
image datasets in scenarios with different levels of corruption and labelled
set sizes, comparing to relevant baselines. CLSVAE provides superior repairs
without human intervention, e.g. with just 0.25% of labelled data we see a
relative error decrease of 58% compared to the closest baseline.
- Abstract(参考訳): データクリーニングは、しばしば外部検出とデータ修復を含む。
系統的エラーは、データ内で繰り返し発生するほぼ決定論的変換、例えばデフォルト値やウォーターマークにセットされた特定の画像ピクセルによって生じる。
その結果、十分なキャパシティを持つモデルはこれらのエラーに容易に適合し、検出と修復が困難になる。
系統的外れ値とは、クリーンなインスタンスのパターンと系統的エラーパターンの組み合わせであると考えると、イリアーは、外れ値よりもモデル内のより小さな表現(サブスペース)によってモデル化できる、というのが私たちの見解です。
そこで本研究では,システムエラーの検出と修正のための新しい半教師付きモデルであるclean subspace variational autoencoder (clsvae)を提案する。
主なアイデアは、潜在空間を分割し、モデルの不変パターンと外れパターンを分離することである。
CLSVAEは、従来の関連モデルに比べてラベル付きデータが少なく、2%未満で有効である。
我々は,汚職のレベルやラベル付きセットサイズが異なるシナリオにおいて,関連するベースラインと比較して,3つのイメージデータセットを用いた実験を行う。
CLSVAEは人間の介入なしに優れた修復を行う。例えば、ラベル付きデータのわずか0.25%では、最も近いベースラインに比べて相対誤差が58%減少する。
関連論文リスト
- Adaptive Deviation Learning for Visual Anomaly Detection with Data Contamination [20.4008901760593]
そこで本研究では,偏差学習を応用して,異常スコアをエンドツーエンドに計算する手法を提案する。
提案手法は競合する手法を超越し,データ汚染の存在下での安定性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-11-14T16:10:15Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Diffusion-based Image Generation for In-distribution Data Augmentation in Surface Defect Detection [8.93281936150572]
産業シナリオにおいて拡散モデルを用いてデータ拡張の手順を改善することができることを示す。
そこで本研究では,アウト・オブ・ディストリビューションとイン・ディストリビューション・サンプルを混合したデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-01T17:09:18Z) - Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples [9.91998873101083]
トレーニング後の補正は、初期訓練後のモデルパラメータを調整し、ラベルノイズを軽減する。
Verifixは、小さな検証済みのデータセットを利用して、1回の更新でモデルの重みを補正する新しいアルゴリズムである。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
論文 参考訳(メタデータ) (2024-03-13T15:32:08Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Y-GAN: Learning Dual Data Representations for Efficient Anomaly
Detection [0.0]
本稿では,Y-GANと呼ばれる新しい再構成モデルを提案する。
モデルはY字型のオートエンコーダで構成され、2つの別々の潜在空間の画像を表現している。
論文 参考訳(メタデータ) (2021-09-28T20:17:04Z) - Efficient remedies for outlier detection with variational autoencoders [8.80692072928023]
深層生成モデルによって計算される類似度は、ラベルなしデータによる外れ値検出の候補メトリックである。
理論的に定位された補正は、VAE推定値による鍵バイアスを容易に改善することを示す。
また,VAEのアンサンブル上で計算される確率の分散により,ロバストな外乱検出が可能となることを示す。
論文 参考訳(メタデータ) (2021-08-19T16:00:58Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。