論文の概要: Information FOMO: The unhealthy fear of missing out on information. A
method for removing misleading data for healthier models
- arxiv url: http://arxiv.org/abs/2208.13080v1
- Date: Sat, 27 Aug 2022 19:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:24:57.866250
- Title: Information FOMO: The unhealthy fear of missing out on information. A
method for removing misleading data for healthier models
- Title(参考訳): 情報FOMO(Information FOMO):情報の欠落に対する不健康な恐れ。
健康モデルにおける誤解を招くデータ除去法
- Authors: Ethan Pickering and Themistoklis P. Sapsis
- Abstract要約: 本稿では,機械学習モデルを正確に学習するために必要なデータサイズを大幅に削減する手法を提案する。
本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。
特に、このメソッドは、データセットをトレーニング、テスト、バリデーションデータに分割する従来のニーズを自然に収束させ、取り除きます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Not all data are equal. Misleading or unnecessary data can critically hinder
the accuracy of Machine Learning (ML) models. When data is plentiful,
misleading effects can be overcome, but in many real-world applications data is
sparse and expensive to acquire. We present a method that substantially reduces
the data size necessary to accurately train ML models, potentially opening the
door for many new, limited-data applications in ML. Our method extracts the
most informative data, while ignoring and omitting data that misleads the ML
model to inferior generalization properties. Specifically, the method
eliminates the phenomena of "double descent", where more data leads to worse
performance. This approach brings several key features to the ML community.
Notably, the method naturally converges and removes the traditional need to
divide the dataset into training, testing, and validation data. Instead, the
selection metric inherently assesses testing error. This ensures that key
information is never wasted in testing or validation.
- Abstract(参考訳): すべてのデータが等しいわけではない。
ミスリーディングや不要なデータは、機械学習(ML)モデルの精度を著しく損なう可能性がある。
データが豊富である場合、誤解を招く効果は克服できるが、多くの現実世界のアプリケーションではデータが希少で取得に費用がかかる。
本稿では,MLモデルを正確にトレーニングするために必要なデータサイズを大幅に削減する手法を提案する。
本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。
具体的には、より多くのデータがパフォーマンスを悪化させる「二重降下」現象を除去する。
このアプローチはMLコミュニティにいくつかの重要な機能をもたらす。
特に、このメソッドは自然に収束し、データセットをトレーニング、テスト、検証データに分割する従来のニーズを取り除く。
代わりに、選択基準は本質的にテストエラーを評価する。
これにより、重要な情報がテストや検証に費やされることがなくなる。
関連論文リスト
- Mendata: A Framework to Purify Manipulated Training Data [12.406255198638064]
我々は、操作したトレーニングデータを浄化するフレームワークであるMendataを提案する。
Mendataはトレーニングインプットを乱してユーティリティを保持するが、参照データと同様に分散される。
我々は、最先端のデータ中毒やデータ追跡技術にMendataを適用して、その効果を実証する。
論文 参考訳(メタデータ) (2023-12-03T04:40:08Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Machine Learning Model Drift Detection Via Weak Data Slices [5.319802998033767]
本研究では,データスライスと呼ばれる特徴空間規則を用いてドリフト検出を行う手法を提案する。
提案手法は,基礎となるデータの変化に基づいて,MLモデルが性能を変化させる可能性が示唆される。
論文 参考訳(メタデータ) (2021-08-11T16:55:34Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。