論文の概要: Information FOMO: The unhealthy fear of missing out on information. A
method for removing misleading data for healthier models
- arxiv url: http://arxiv.org/abs/2208.13080v1
- Date: Sat, 27 Aug 2022 19:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:24:57.866250
- Title: Information FOMO: The unhealthy fear of missing out on information. A
method for removing misleading data for healthier models
- Title(参考訳): 情報FOMO(Information FOMO):情報の欠落に対する不健康な恐れ。
健康モデルにおける誤解を招くデータ除去法
- Authors: Ethan Pickering and Themistoklis P. Sapsis
- Abstract要約: 本稿では,機械学習モデルを正確に学習するために必要なデータサイズを大幅に削減する手法を提案する。
本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。
特に、このメソッドは、データセットをトレーニング、テスト、バリデーションデータに分割する従来のニーズを自然に収束させ、取り除きます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Not all data are equal. Misleading or unnecessary data can critically hinder
the accuracy of Machine Learning (ML) models. When data is plentiful,
misleading effects can be overcome, but in many real-world applications data is
sparse and expensive to acquire. We present a method that substantially reduces
the data size necessary to accurately train ML models, potentially opening the
door for many new, limited-data applications in ML. Our method extracts the
most informative data, while ignoring and omitting data that misleads the ML
model to inferior generalization properties. Specifically, the method
eliminates the phenomena of "double descent", where more data leads to worse
performance. This approach brings several key features to the ML community.
Notably, the method naturally converges and removes the traditional need to
divide the dataset into training, testing, and validation data. Instead, the
selection metric inherently assesses testing error. This ensures that key
information is never wasted in testing or validation.
- Abstract(参考訳): すべてのデータが等しいわけではない。
ミスリーディングや不要なデータは、機械学習(ML)モデルの精度を著しく損なう可能性がある。
データが豊富である場合、誤解を招く効果は克服できるが、多くの現実世界のアプリケーションではデータが希少で取得に費用がかかる。
本稿では,MLモデルを正確にトレーニングするために必要なデータサイズを大幅に削減する手法を提案する。
本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。
具体的には、より多くのデータがパフォーマンスを悪化させる「二重降下」現象を除去する。
このアプローチはMLコミュニティにいくつかの重要な機能をもたらす。
特に、このメソッドは自然に収束し、データセットをトレーニング、テスト、検証データに分割する従来のニーズを取り除く。
代わりに、選択基準は本質的にテストエラーを評価する。
これにより、重要な情報がテストや検証に費やされることがなくなる。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Machine Learning Data Suitability and Performance Testing Using Fault
Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。
データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。
本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T12:58:35Z) - Semi-Supervised Learning with Multiple Imputations on Non-Random Missing
Labels [0.0]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方でアルゴリズムがトレーニングされるときに実装される。
本稿では,より高精度でバイアスの少ない複数の計算モデルを組み合わせるための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T04:09:53Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Eeny, meeny, miny, moe. How to choose data for morphological inflection [8.914777617216862]
本稿では,トランスフォーマーモデルを用いた形態的インフレクション作業のための4つのサンプリング戦略について検討する。
そこで本研究では,30言語にまたがる戦略の頑健さについて検討する。
この結果から,モデル信頼度とエントロピーに基づくデータ選択のメリットが明らかとなった。
論文 参考訳(メタデータ) (2022-10-26T04:33:18Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Time Series Anomaly Detection with label-free Model Selection [0.6303112417588329]
ラベルのない時系列データに対するラベルなしモデル選択を用いた新しい異常検出アルゴリズムであるLaF-ADを提案する。
我々のアルゴリズムは容易に並列化可能であり、不条件データや季節データに対してより堅牢であり、多数の異常モデルに対して非常にスケーラブルである。
論文 参考訳(メタデータ) (2021-06-11T00:21:06Z) - Data from Model: Extracting Data from Non-robust and Robust Models [83.60161052867534]
この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。
本稿では,データ・トゥ・モデル(DtM)とデータ・トゥ・モデル(DfM)を連続的に処理し,特徴マッピング情報の喪失について検討する。
以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T05:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。