論文の概要: Learning Over Dirty Data Without Cleaning
- arxiv url: http://arxiv.org/abs/2004.02308v1
- Date: Sun, 5 Apr 2020 20:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:20:09.974447
- Title: Learning Over Dirty Data Without Cleaning
- Title(参考訳): 汚れたデータをクリーニングせずに学習する
- Authors: Jose Picado, John Davis, Arash Termehchy, Ga Young Lee
- Abstract要約: 実世界のデータセットは汚く、多くのエラーを含んでいる。
汚いデータベース上での学習は、不正確なモデルをもたらす可能性がある。
本稿では,新しい関係学習システムDLearnを提案する。
- 参考スコア(独自算出の注目度): 12.892359722606681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world datasets are dirty and contain many errors. Examples of these
issues are violations of integrity constraints, duplicates, and inconsistencies
in representing data values and entities. Learning over dirty databases may
result in inaccurate models. Users have to spend a great deal of time and
effort to repair data errors and create a clean database for learning.
Moreover, as the information required to repair these errors is not often
available, there may be numerous possible clean versions for a dirty database.
We propose DLearn, a novel relational learning system that learns directly over
dirty databases effectively and efficiently without any preprocessing. DLearn
leverages database constraints to learn accurate relational models over
inconsistent and heterogeneous data. Its learned models represent patterns over
all possible clean instances of the data in a usable form. Our empirical study
indicates that DLearn learns accurate models over large real-world databases
efficiently.
- Abstract(参考訳): 現実世界のデータセットは汚く、多くのエラーを含んでいる。
これらの問題の例としては、整合性制約の違反、重複、データ値とエンティティの表現における矛盾などがある。
汚いデータベース上での学習は、不正確なモデルをもたらす可能性がある。
ユーザはデータエラーを修復し、学習のためのクリーンなデータベースを作成するために、多くの時間と労力を費やす必要があります。
さらに、これらのエラーを修正するために必要な情報が入手できないため、汚いデータベースのクリーンバージョンが多数存在する可能性がある。
本稿では,前処理なしに汚いデータベースを直接効率よく,効率的に学習する新しい関係学習システムDLearnを提案する。
dlearnは一貫性のない異種データよりも正確な関係モデルを学ぶためにデータベースの制約を利用する。
学習したモデルは、可能なすべてのデータのクリーンなインスタンスのパターンを使用可能な形式で表現する。
実験の結果,dlearnは大規模実世界のデータベース上で正確なモデルを効率的に学習できることがわかった。
関連論文リスト
- Certain and Approximately Certain Models for Statistical Learning [4.318959672085627]
特定のトレーニングデータや対象モデルに対して,不足値を持つデータから,正確なモデルを直接学習することが可能であることを示す。
我々は、理論的に保証された効率的なアルゴリズムを構築し、この必要条件を確認し、計算が不要な場合に正確なモデルを返す。
論文 参考訳(メタデータ) (2024-02-27T22:49:33Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Repairing Systematic Outliers by Learning Clean Subspaces in VAEs [31.298063226774115]
本稿では,システムエラーの検出と自動修復のための半教師付きモデルであるクリーンサブスペースバリアオートエンコーダ(VAE)を提案する。
VAEは従来のモデルに比べてラベル付きデータをはるかに少なく、データの2%未満で有効である。
3つの画像データセットを異なるレベルの腐敗とラベル付きセットサイズを持つシナリオで実験する。
論文 参考訳(メタデータ) (2022-07-17T01:28:23Z) - An epistemic approach to model uncertainty in data-graphs [2.1261712640167847]
グラフデータベースは、彼らが表現しようとする実世界のデータに関して、エラーや不一致に悩まされる可能性がある。
本研究では,従来の関係データベースに提案されていた確率的不確定グラフデータベースの概念について検討する。
データクリーニングと確率的クエリ応答という2つの計算問題を定義し,その複雑さについて検討する。
論文 参考訳(メタデータ) (2021-09-29T00:08:27Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - On the Pitfalls of Learning with Limited Data: A Facial Expression
Recognition Case Study [0.5249805590164901]
私達はビデオからの顔表現の認識の問題に焦点を合わせます。
4つのデータベースを異なる複雑さで,9つのディープラーニングアーキテクチャで動画分類を行った。
複雑なトレーニングセットは、トランスファーラーニングと合成生成データでトレーニングすると、より安定したテストセットによく変換されます。
論文 参考訳(メタデータ) (2021-04-02T18:53:41Z) - Self-Updating Models with Error Remediation [0.5156484100374059]
我々は、デプロイされたモデルが新しいデータが利用可能になると、自身を更新するフレームワーク、Self-Updating Models with Error Remediation (SUMER)を提案する。
SUMERの重要な構成要素は、自己ラベル付きデータがエラーの伝播に影響を受けやすいため、エラー修正の概念である。
自己更新モデル(Self-updating Model, SUM)は, 前例のない追加データを提示しても, 自己更新を行おうとしないモデルよりも, 一般的に優れている。
論文 参考訳(メタデータ) (2020-05-19T23:09:38Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。