論文の概要: Towards an Analytical Definition of Sufficient Data
- arxiv url: http://arxiv.org/abs/2202.03238v1
- Date: Mon, 7 Feb 2022 14:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 15:11:56.228701
- Title: Towards an Analytical Definition of Sufficient Data
- Title(参考訳): 十分データの分析的定義に向けて
- Authors: Adam Byerly and Tatiana Kalganova
- Abstract要約: 複雑性が増大する5つのデータセットのそれぞれに対して,特定のトレーニングサンプルは,クラスメンバシップに他よりも有益であることを示す。
これらのサンプルは、クラスのセントロイドに対する縮小次元空間におけるそれらの位置を解析することにより、トレーニングの事前を特定できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that, for each of five datasets of increasing complexity, certain
training samples are more informative of class membership than others. These
samples can be identified a priori to training by analyzing their position in
reduced dimensional space relative to the classes' centroids. Specifically, we
demonstrate that samples nearer the classes' centroids are less informative
than those that are furthest from it. For all five datasets, we show that there
is no statistically significant difference between training on the entire
training set and when excluding up to 2% of the data nearest to each class's
centroid.
- Abstract(参考訳): 複雑性が増大する5つのデータセットのそれぞれに対して、特定のトレーニングサンプルはクラスメンバーシップに関して他のものよりも有益であることを示す。
これらのサンプルは、クラスのセントロイドに対する縮小次元空間におけるそれらの位置を解析することにより、トレーニングの事前を特定できる。
具体的には, クラスのセントロイドに近いサンプルは, それらから最も遠ざかるサンプルよりも, 情報に乏しいことを実証する。
5つのデータセットすべてにおいて、トレーニングセット全体のトレーニングと、各クラスのcentroidに最も近いデータの最大2%を除外した場合の、統計的に有意な差は認められていない。
関連論文リスト
- Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning [16.110763554788445]
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。
我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
論文 参考訳(メタデータ) (2024-10-30T10:25:22Z) - Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels [8.14255560923536]
実世界のデータは、しばしば長い尾の分布とラベルノイズを示し、一般化性能を著しく低下させる。
近年の研究では,各クラス内の高信頼度サンプルに基づいて,各クラスのセントロイドを推定するノイズの多いサンプル選択手法に焦点が当てられている。
そこで我々は,分散型サンプル選択・コントラスト学習(DaSC)を提案し,拡張型セントロイドを生成する。
論文 参考訳(メタデータ) (2024-07-23T19:06:15Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - GDC- Generalized Distribution Calibration for Few-Shot Learning [5.076419064097734]
大規模なラベル付きデータセットを組み立てるのにかなりの時間と労力を要するため、機械学習において重要な問題となるショットラーニングはほとんどない。
ほとんどの少数ショット学習アルゴリズムは、2つの制限の1つに悩まされている。
そこで本研究では,全大クラスの重み付きランダム変数として分類する際,少数ショット分布を推定する一般サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-04-11T16:22:53Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Deep Learning on a Data Diet: Finding Important Examples Early in
Training [35.746302913918484]
ビジョンデータセットでは、トレーニングの初期段階で重要な例を特定するために、単純なスコアを使用することができる。
グラディエントノルメッド(GraNd)と誤差L2-ノルム(EL2N)という2つのスコアを提案する。
論文 参考訳(メタデータ) (2021-07-15T02:12:20Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。
種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。
また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文 参考訳(メタデータ) (2020-03-18T07:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。