Fugu-MT 論文翻訳(概要): When does loss-based prioritization fail?

論文の概要: When does loss-based prioritization fail?

arxiv url: http://arxiv.org/abs/2107.07741v1
Date: Fri, 16 Jul 2021 07:23:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-19 14:35:34.562350
Title: When does loss-based prioritization fail?
Title（参考訳）: 損失ベースの優先順位付けはいつ失敗するのか?
Authors: Niel Teng Hu, Xinyu Hu, Rosanne Liu, Sara Hooker, Jason Yosinski
Abstract要約: ノイズや破損したデータのあるシナリオでは,損失に基づく加速度法が劣化することを示す。例題の難易度は、ノイズを他のタイプの難易度例から正しく分離する必要がある。
参考スコア（独自算出の注目度）: 18.982933391138268
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Not all examples are created equal, but standard deep neural network training protocols treat each training point uniformly. Each example is propagated forward and backward through the network the same amount of times, independent of how much the example contributes to the learning protocol. Recent work has proposed ways to accelerate training by deviating from this uniform treatment. Popular methods entail up-weighting examples that contribute more to the loss with the intuition that examples with low loss have already been learned by the model, so their marginal value to the training procedure should be lower. This view assumes that updating the model with high loss examples will be beneficial to the model. However, this may not hold for noisy, real world data. In this paper, we theorize and then empirically demonstrate that loss-based acceleration methods degrade in scenarios with noisy and corrupted data. Our work suggests measures of example difficulty need to correctly separate out noise from other types of challenging examples.
Abstract（参考訳）: すべての例が等しく作られるわけではないが、標準のディープニューラルネットワークトレーニングプロトコルは、各トレーニングポイントを均一に扱う。各例は、サンプルが学習プロトコルにどの程度貢献するかに関わらず、ネットワークを通じて同じ回数で前方および後方に伝播される。最近の研究は、この均一な治療から逸脱してトレーニングを加速する方法を提案している。一般的な手法は、損失の少ない例が既にモデルによって学習されているという直観によって損失に寄与するアップウェイトな例を伴っているため、トレーニング手順に対するその限界値が低くすべきである。この見解は、高損失例でモデルを更新することがモデルにとって有益であると仮定する。しかし、これは騒々しい実世界のデータには当てはまらないかもしれない。本稿では,損失に基づく加速度法がノイズや破損したデータを伴うシナリオで劣化することを示す。我々の研究は、ノイズを他の困難な例から正しく分離する必要がある例の計測方法を提案する。

関連論文リスト

Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。 IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。 IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文参考訳（メタデータ） (2025-02-11T13:34:09Z)
Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting [15.251425165987987]
下流タスクで事前訓練されたモデルを微調整すると、元の能力は劣化することが多い。本稿では,事前学習したモデルの損失に基づく微調整データのサンプル重み付け手法を提案する。我々は,言語と視覚の両方における手法の有効性を実証的に実証した。
論文参考訳（メタデータ） (2025-02-05T00:49:59Z)
Reducing Bias in Pre-trained Models by Tuning while Penalizing Change [8.862970622361747]
大量のデータに基づいてトレーニングされた深層モデルには、トレーニング期間中に存在する暗黙のバイアスが組み込まれていることが多い。新しいデータは、しばしば高価で、自律運転や医療意思決定のような分野では入手が困難である。本稿では,事前学習モデルを用いて,事前検出したバイアスを軽減するために重みを適応する変化ペナライゼーションに基づく手法を提案する。
論文参考訳（メタデータ） (2024-04-18T16:12:38Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Fast Propagation is Better: Accelerating Single-Step Adversarial Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。モデルの内部構造ブロックを利用して効率を向上させることを提案する。従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文参考訳（メタデータ） (2023-10-24T01:36:20Z)
Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-26T12:43:25Z)
Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文参考訳（メタデータ） (2023-06-21T07:43:23Z)
Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。 SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文参考訳（メタデータ） (2022-10-26T21:03:46Z)
DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文参考訳（メタデータ） (2022-08-21T13:38:55Z)
Exponentiated Gradient Reweighting for Robust Training Under Label Noise and Beyond [21.594200327544968]
ノイズの多い例から学ぶための柔軟なアプローチを提案する。具体的には、各トレーニング例を専門家として扱い、すべての例に分散を維持します。他の関連する手法とは異なり、このアプローチは損失関数の一般的なクラスを扱い、幅広いノイズタイプやアプリケーションに適用できる。
論文参考訳（メタデータ） (2021-04-03T22:54:49Z)
Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。 ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文参考訳（メタデータ） (2020-03-24T03:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。