Fugu-MT 論文翻訳(概要): Is Oracle Pruning the True Oracle?

論文の概要: Is Oracle Pruning the True Oracle?

arxiv url: http://arxiv.org/abs/2412.00143v1
Date: Thu, 28 Nov 2024 19:00:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.522744
Title: Is Oracle Pruning the True Oracle?
Title（参考訳）: Oracleは真のOracleを破っているか?
Authors: Sicheng Feng, Keda Tao, Huan Wang,
Abstract要約: Oracleのプルーニングは、35年以上にわたって、ほとんどのニューラルネットワークプルーニングメソッドの基礎とされてきた。本稿では, 経験的相関解析を用いて, 現代の深層モデルに対する妥当性について検討する。
参考スコア（独自算出の注目度）: 7.189758562724638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Oracle pruning, which selects unimportant weights by minimizing the pruned train loss, has been taken as the foundation for most neural network pruning methods for over 35 years, while few (if not none) have thought about how much the foundation really holds. This paper, for the first time, attempts to examine its validity on modern deep models through empirical correlation analyses and provide reflections on the field of neural network pruning. Specifically, for a typical pruning algorithm with three stages (pertaining, pruning, and retraining), we analyze the model performance correlation before and after retraining. Extensive experiments (37K models are trained) across a wide spectrum of models (LeNet5, VGG, ResNets, ViT, MLLM) and datasets (MNIST and its variants, CIFAR10/CIFAR100, ImageNet-1K, MLLM data) are conducted. The results lead to a surprising conclusion: on modern deep learning models, the performance before retraining is barely correlated with the performance after retraining. Namely, the weights selected by oracle pruning can hardly guarantee a good performance after retraining. This further implies that existing works using oracle pruning to derive pruning criteria may be groundless from the beginning. Further studies suggest the rising task complexity is one factor that makes oracle pruning invalid nowadays. Finally, given the evidence, we argue that the retraining stage in a pruning algorithm should be accounted for when developing any pruning criterion.
Abstract（参考訳）: Oracleのプルーニングは、刈り取られた列車の損失を最小限にして重要でない重量を選択するもので、35年以上にわたってほとんどのニューラルネットワークプルーニング手法の基礎とされてきた。本稿では,経験的相関解析により,現代の深層モデルの妥当性を初めて検証し,ニューラルネットワークプルーニングの分野について考察する。具体的には,3段階(保持,プルーニング,リトレーニング)の典型的なプルーニングアルゴリズムに対して,リトレーニング前後のモデル性能相関を解析する。広範囲にわたるモデル(LeNet5, VGG, ResNets, ViT, MLLM)とデータセット(MNISTとその変種であるCIFAR10/CIFAR100, ImageNet-1K, MLLMデータ)にわたる大規模な実験(37Kモデルがトレーニングされている)を行う。現代のディープラーニングモデルでは、再トレーニング前のパフォーマンスは、再トレーニング後のパフォーマンスとほとんど相関しない。すなわち、オラクルプルーニングによって選択された重量は、再訓練後の良好な性能をほとんど保証できない。このことは、既存のオラクルプルーニングによるプルーニング基準の導出は、最初から根拠のない可能性があることを示唆している。さらなる研究は、タスクの複雑さの増大が、近年のオラクルプルーニングを無効にする要因の1つであることを示唆している。最後に, プルーニングアルゴリズムにおける再学習段階は, プルーニング基準を開発する際に考慮すべきであると主張する。

関連論文リスト

S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。 1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文参考訳（メタデータ） (2025-02-05T18:57:40Z)
Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。提案手法は, 既存手法よりも高スパース性設定で優れる。ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文参考訳（メタデータ） (2024-08-27T03:17:52Z)
ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。 ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文参考訳（メタデータ） (2024-06-06T07:40:00Z)
More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文参考訳（メタデータ） (2023-11-24T18:27:41Z)
Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文参考訳（メタデータ） (2023-06-21T07:43:23Z)
Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文参考訳（メタデータ） (2023-01-27T06:49:47Z)
A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T07:41:11Z)
Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。 forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文参考訳（メタデータ） (2021-11-24T16:47:34Z)
One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget [0.0]
ニューラルネットワークにおけるスパーシリティの導入は、パフォーマンスをほぼ無傷に保ちながら、その複雑さを軽減する効率的な方法である。多くの場合、スパシティは3段階のパイプラインを使用して導入されます。1)モデルを収束させるためにトレーニングし、2)いくつかの基準に従ってモデルをプーンし、3)プルーニングされたモデルを微調整してパフォーマンスを回復します。本研究では,パイプラインの最初のステップを廃止し,他の2ステップを1回のプルーニングトレーニングサイクルで組み合わせることを提案する。
論文参考訳（メタデータ） (2021-07-05T15:27:07Z)
Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文参考訳（メタデータ） (2021-06-19T02:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。