Fugu-MT 論文翻訳(概要): Does `Deep Learning on a Data Diet' reproduce? Overall yes, but GraNd at Initialization does not

論文の概要: Does `Deep Learning on a Data Diet' reproduce? Overall yes, but GraNd at Initialization does not

arxiv url: http://arxiv.org/abs/2303.14753v1
Date: Sun, 26 Mar 2023 15:13:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 17:41:56.513141
Title: Does `Deep Learning on a Data Diet' reproduce? Overall yes, but GraNd at Initialization does not
Title（参考訳）: データダイエットにおける深層学習」は再現されるか? 全体としてはそうですが、初期化時のGraNdはそうではありません
Authors: Andreas Kirsch
Abstract要約: 本稿では、ニューラルネットワークのトレーニング中にデータセットを刈り取るための2つの革新的な指標を紹介する。トレーニング中のGraNdスコアは、有用なプルーニング信号を提供する。 2021年のJAX/FLAXコードの調査では、チェックポイントの復元コードにバグが見つかった。
参考スコア（独自算出の注目度）: 1.52292571922932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The paper 'Deep Learning on a Data Diet' by Paul et al. (2021) introduces two innovative metrics for pruning datasets during the training of neural networks. While we are able to replicate the results for the EL2N score at epoch 20, the same cannot be said for the GraNd score at initialization. The GraNd scores later in training provide useful pruning signals, however. The GraNd score at initialization calculates the average gradient norm of an input sample across multiple randomly initialized models before any training has taken place. Our analysis reveals a strong correlation between the GraNd score at initialization and the input norm of a sample, suggesting that the latter could have been a cheap new baseline for data pruning. Unfortunately, neither the GraNd score at initialization nor the input norm surpasses random pruning in performance. This contradicts one of the findings in Paul et al. (2021). We were unable to reproduce their CIFAR-10 results using both an updated version of the original JAX repository and in a newly implemented PyTorch codebase. An investigation of the underlying JAX/FLAX code from 2021 surfaced a bug in the checkpoint restoring code that was fixed in April 2021 (https://github.com/google/flax/commit/28fbd95500f4bf2f9924d2560062fa50e919b1a5).
Abstract（参考訳）: Paul氏ら(2021年)の論文“Deep Learning on a Data Diet”では、ニューラルネットワークのトレーニング中にデータセットをプルーニングするための2つの革新的なメトリクスが紹介されている。我々はepoch 20でel2nスコアの結果を再現できるが、初期化時のグランドスコアについても同じことは言えない。しかし、訓練中のGraNdスコアは有用なプルーニング信号を提供する。初期化時のグランドスコアは、トレーニングが行われる前に複数のランダム初期化モデルで入力サンプルの平均勾配ノルムを計算する。解析の結果,初期化時のGraNdスコアとサンプルの入力基準との間には強い相関関係がみられ,後者がデータプルーニングのための安価な新しいベースラインであった可能性が示唆された。残念ながら、初期化時のGraNdスコアや入力ノルムは、パフォーマンスのランダムプルーニングを超えない。これは、Paul et al. (2021)の発見の1つと矛盾する。私たちは、元のJAXリポジトリの更新バージョンと新しく実装されたPyTorchコードベースの両方を使って、彼らのCIFAR-10結果を再現できなかった。 2021年4月に修正されたチェックポイント復元コード(https://github.com/google/flax/commit/28fbd95500f4f2f2f9924d2560062fa50e919b1a5)のバグが見つかった。

関連論文リスト

Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文参考訳（メタデータ） (2024-09-19T17:56:16Z)
Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。提案手法は, 既存手法よりも高スパース性設定で優れる。ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文参考訳（メタデータ） (2024-08-27T03:17:52Z)
Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文参考訳（メタデータ） (2023-06-18T01:58:59Z)
Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。 CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文参考訳（メタデータ） (2023-02-17T18:45:04Z)
BERT on a Data Diet: Finding Important Examples by Gradient-Based Pruning [20.404705741136777]
我々は,GraNdとその推定バージョンであるEL2Nを,データセットの重要な例を見つけるための評価指標として紹介する。この結果から,GraNd/EL2Nスコアが最も高いサンプルのごく一部を刈り取ることで,テスト精度を維持できるだけでなく,それを超えることを示す。
論文参考訳（メタデータ） (2022-11-10T14:37:23Z)
TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。 TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文参考訳（メタデータ） (2022-07-05T07:17:43Z)
Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。 forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文参考訳（メタデータ） (2021-11-24T16:47:34Z)
Pruning Neural Networks at Initialization: Why are We Missing the Mark? [43.7335598007065]
ニューラルネットワークを早期に刈り取るための提案について検討する。トレーニング後のプルーニングとは異なり、ウェイトをランダムにシャッフルすると正確性が保たれる。この性質は、根底にある刈り込み、早期に熟成したいという願望、あるいはその両方において幅広い課題を示唆している。
論文参考訳（メタデータ） (2020-09-18T01:13:38Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)
NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文参考訳（メタデータ） (2020-01-10T09:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。