論文の概要: Towards an Analytical Definition of Sufficient Data
- arxiv url: http://arxiv.org/abs/2202.03238v1
- Date: Mon, 7 Feb 2022 14:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 15:11:56.228701
- Title: Towards an Analytical Definition of Sufficient Data
- Title(参考訳): 十分データの分析的定義に向けて
- Authors: Adam Byerly and Tatiana Kalganova
- Abstract要約: 複雑性が増大する5つのデータセットのそれぞれに対して,特定のトレーニングサンプルは,クラスメンバシップに他よりも有益であることを示す。
これらのサンプルは、クラスのセントロイドに対する縮小次元空間におけるそれらの位置を解析することにより、トレーニングの事前を特定できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that, for each of five datasets of increasing complexity, certain
training samples are more informative of class membership than others. These
samples can be identified a priori to training by analyzing their position in
reduced dimensional space relative to the classes' centroids. Specifically, we
demonstrate that samples nearer the classes' centroids are less informative
than those that are furthest from it. For all five datasets, we show that there
is no statistically significant difference between training on the entire
training set and when excluding up to 2% of the data nearest to each class's
centroid.
- Abstract(参考訳): 複雑性が増大する5つのデータセットのそれぞれに対して、特定のトレーニングサンプルはクラスメンバーシップに関して他のものよりも有益であることを示す。
これらのサンプルは、クラスのセントロイドに対する縮小次元空間におけるそれらの位置を解析することにより、トレーニングの事前を特定できる。
具体的には, クラスのセントロイドに近いサンプルは, それらから最も遠ざかるサンプルよりも, 情報に乏しいことを実証する。
5つのデータセットすべてにおいて、トレーニングセット全体のトレーニングと、各クラスのcentroidに最も近いデータの最大2%を除外した場合の、統計的に有意な差は認められていない。
関連論文リスト
- Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for
Enhanced Dataset Pruning [54.511055635704764]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - GDC- Generalized Distribution Calibration for Few-Shot Learning [5.076419064097734]
大規模なラベル付きデータセットを組み立てるのにかなりの時間と労力を要するため、機械学習において重要な問題となるショットラーニングはほとんどない。
ほとんどの少数ショット学習アルゴリズムは、2つの制限の1つに悩まされている。
そこで本研究では,全大クラスの重み付きランダム変数として分類する際,少数ショット分布を推定する一般サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-04-11T16:22:53Z) - How Do Graph Networks Generalize to Large and Diverse Molecular Systems? [10.690849483282564]
多くのデータセットが不足している複雑さの4つの側面を特定します。
本稿では,従来のOC20の最先端性能を16%向上させるGemNet-OCモデルを提案する。
我々の発見は、グラフニューラルネットワークがデータセットのサイズと多様性から同じように独立して機能するという共通の信念に挑戦する。
論文 参考訳(メタデータ) (2022-04-06T12:52:34Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Deep Learning on a Data Diet: Finding Important Examples Early in
Training [35.746302913918484]
ビジョンデータセットでは、トレーニングの初期段階で重要な例を特定するために、単純なスコアを使用することができる。
グラディエントノルメッド(GraNd)と誤差L2-ノルム(EL2N)という2つのスコアを提案する。
論文 参考訳(メタデータ) (2021-07-15T02:12:20Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。
種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。
また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文 参考訳(メタデータ) (2020-03-18T07:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。