論文の概要: LossVal: Efficient Data Valuation for Neural Networks
- arxiv url: http://arxiv.org/abs/2412.04158v2
- Date: Tue, 17 Dec 2024 16:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:54:42.529904
- Title: LossVal: Efficient Data Valuation for Neural Networks
- Title(参考訳): LossVal: ニューラルネットワークの効率的なデータ評価
- Authors: Tim Wibiral, Mohamed Karim Belaid, Maximilian Rabus, Ansgar Scherp,
- Abstract要約: LossValは、ニューラルネットワークトレーニング中の重要度を計算する効率的なデータ評価手法である。
LossValは計算コストを削減し、大規模なデータセットと実用的なアプリケーションに適している。
- 参考スコア(独自算出の注目度): 2.7623977033962936
- License:
- Abstract: Assessing the importance of individual training samples is a key challenge in machine learning. Traditional approaches retrain models with and without specific samples, which is computationally expensive and ignores dependencies between data points. We introduce LossVal, an efficient data valuation method that computes importance scores during neural network training by embedding a self-weighting mechanism into loss functions like cross-entropy and mean squared error. LossVal reduces computational costs, making it suitable for large datasets and practical applications. Experiments on classification and regression tasks across multiple datasets show that LossVal effectively identifies noisy samples and is able to distinguish helpful from harmful samples. We examine the gradient calculation of LossVal to highlight its advantages. The source code is available at: https://github.com/twibiral/LossVal
- Abstract(参考訳): 個別のトレーニングサンプルの重要性を評価することは、機械学習における重要な課題である。
従来のアプローチでは、データポイント間の依存関係を無視し、計算コストが高く、特定のサンプルの有無でモデルを再トレーニングする。
我々は、ニューラルネットワークトレーニング中に、自己重み付け機構をクロスエントロピーや平均二乗誤差のような損失関数に埋め込むことで、重要度を計算する効率的なデータ評価手法であるLossValを紹介する。
LossValは計算コストを削減し、大規模なデータセットと実用的なアプリケーションに適している。
複数のデータセットにわたる分類と回帰タスクの実験では、LossValはノイズの多いサンプルを効果的に識別し、有害なサンプルと区別することができる。
我々はLossValの勾配計算について検討し、その利点を強調した。
ソースコードは、https://github.com/twibiral/LossValで入手できる。
関連論文リスト
- KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Imbalanced Nodes Classification for Graph Neural Networks Based on
Valuable Sample Mining [9.156427521259195]
不均衡問題に対する従来のアルゴリズムレベルのアプローチに基づいて、新たな損失関数FD-Lossを再構成する。
我々の損失関数は、ノード分類タスクの既存の手法と比較して、サンプルノードの不均衡を効果的に解決し、分類精度を4%向上させることができる。
論文 参考訳(メタデータ) (2022-09-18T09:22:32Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Neuron-Specific Dropout: A Deterministic Regularization Technique to
Prevent Neural Networks from Overfitting & Reduce Dependence on Large
Training Samples [0.0]
NSDropoutは、モデルのレイヤのトレーニングパスとバリデーションパスの両方を調べます。
データセット内の各クラスのニューロンが生成する平均値を比較することで、ネットワークはターゲットユニットをドロップすることができる。
レイヤは、バリデーションからサンプルを見る際に存在しない、テスト中にモデルが見ている機能やノイズを予測することができる。
論文 参考訳(メタデータ) (2022-01-13T13:10:30Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z) - Identifying and Compensating for Feature Deviation in Imbalanced Deep
Learning [59.65752299209042]
このようなシナリオ下でのConvNetの学習について検討する。
私たちは、ConvNetがマイナーなクラスにかなり適合していることに気づきました。
クラス依存型温度トレーニング(CDT)のConvNetの導入を提案する。
論文 参考訳(メタデータ) (2020-01-06T03:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。