Fugu-MT 論文翻訳(概要): Towards an Analytical Definition of Sufficient Data

論文の概要: Towards an Analytical Definition of Sufficient Data

arxiv url: http://arxiv.org/abs/2202.03238v1
Date: Mon, 7 Feb 2022 14:44:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-08 15:11:56.228701
Title: Towards an Analytical Definition of Sufficient Data
Title（参考訳）: 十分データの分析的定義に向けて
Authors: Adam Byerly and Tatiana Kalganova
Abstract要約: 複雑性が増大する5つのデータセットのそれぞれに対して,特定のトレーニングサンプルは,クラスメンバシップに他よりも有益であることを示す。これらのサンプルは、クラスのセントロイドに対する縮小次元空間におけるそれらの位置を解析することにより、トレーニングの事前を特定できる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We show that, for each of five datasets of increasing complexity, certain training samples are more informative of class membership than others. These samples can be identified a priori to training by analyzing their position in reduced dimensional space relative to the classes' centroids. Specifically, we demonstrate that samples nearer the classes' centroids are less informative than those that are furthest from it. For all five datasets, we show that there is no statistically significant difference between training on the entire training set and when excluding up to 2% of the data nearest to each class's centroid.
Abstract（参考訳）: 複雑性が増大する5つのデータセットのそれぞれに対して、特定のトレーニングサンプルはクラスメンバーシップに関して他のものよりも有益であることを示す。これらのサンプルは、クラスのセントロイドに対する縮小次元空間におけるそれらの位置を解析することにより、トレーニングの事前を特定できる。具体的には, クラスのセントロイドに近いサンプルは, それらから最も遠ざかるサンプルよりも, 情報に乏しいことを実証する。 5つのデータセットすべてにおいて、トレーニングセット全体のトレーニングと、各クラスのcentroidに最も近いデータの最大2%を除外した場合の、統計的に有意な差は認められていない。

関連論文リスト

Effects of Training Data Quality on Classifier Performance [0.0]
トレーニングデータの質を複数のメカニズムで劣化させる効果について検討する。分解が増加し、ほぼ正しい状態から偶然に正しい状態に移動するため、すべての4つの分類器で分解のような挙動が保たれる。
論文参考訳（メタデータ） (2026-02-25T00:29:51Z)
Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning [16.110763554788445]
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
論文参考訳（メタデータ） (2024-10-30T10:25:22Z)
Distribution-Aware Robust Learning from Long-Tailed Data with Noisy Labels [8.14255560923536]
実世界のデータは、しばしば長い尾の分布とラベルノイズを示し、一般化性能を著しく低下させる。近年の研究では,各クラス内の高信頼度サンプルに基づいて,各クラスのセントロイドを推定するノイズの多いサンプル選択手法に焦点が当てられている。そこで我々は,分散型サンプル選択・コントラスト学習(DaSC)を提案し,拡張型セントロイドを生成する。
論文参考訳（メタデータ） (2024-07-23T19:06:15Z)
Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文参考訳（メタデータ） (2023-11-22T03:45:30Z)
A Survey of Learning on Small Data: Generalization, Optimization, and Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文参考訳（メタデータ） (2022-07-29T02:34:19Z)
GDC- Generalized Distribution Calibration for Few-Shot Learning [5.076419064097734]
大規模なラベル付きデータセットを組み立てるのにかなりの時間と労力を要するため、機械学習において重要な問題となるショットラーニングはほとんどない。ほとんどの少数ショット学習アルゴリズムは、2つの制限の1つに悩まされている。そこで本研究では,全大クラスの重み付きランダム変数として分類する際,少数ショット分布を推定する一般サンプリング手法を提案する。
論文参考訳（メタデータ） (2022-04-11T16:22:53Z)
Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に急激な相関関係があるニューラルネットワークの予測を誤った方向に導く本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-01-10T22:04:48Z)
Improving Contrastive Learning on Imbalanced Seed Data via Open-World Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。 MAKは、尾性、近接性、多様性の3つの単純な原則に従う。我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文参考訳（メタデータ） (2021-11-01T15:09:41Z)
Deep Learning on a Data Diet: Finding Important Examples Early in Training [35.746302913918484]
ビジョンデータセットでは、トレーニングの初期段階で重要な例を特定するために、単純なスコアを使用することができる。グラディエントノルメッド(GraNd)と誤差L2-ノルム(EL2N)という2つのスコアを提案する。
論文参考訳（メタデータ） (2021-07-15T02:12:20Z)
Quasi-Global Momentum: Accelerating Decentralized Deep Learning on Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-02-09T11:27:14Z)
Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。 MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文参考訳（メタデータ） (2020-07-27T17:03:50Z)
Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文参考訳（メタデータ） (2020-03-18T07:55:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。