Fugu-MT 論文翻訳(概要): The rise of the lottery heroes: why zero-shot pruning is hard

論文の概要: The rise of the lottery heroes: why zero-shot pruning is hard

arxiv url: http://arxiv.org/abs/2202.12400v1
Date: Thu, 24 Feb 2022 22:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-01 01:03:31.592114
Title: The rise of the lottery heroes: why zero-shot pruning is hard
Title（参考訳）: 宝くじヒーローの台頭:なぜゼロショットの刈り取りが難しいのか
Authors: Enzo Tartaglione
Abstract要約: ディープラーニング最適化の最近の進歩は、モデルのトレーニングを成功させるためには、パラメータのサブセットが本当に必要であることを示している。トレーニング可能なサブネットワークを見つけるのは通常、コストがかかるプロセスです。ディープラーニングモデルにおける学習されたサブグラフ構造は、トレーニング時に見つけることができるか?
参考スコア（独自算出の注目度）: 3.1473798197405944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in deep learning optimization showed that just a subset of parameters are really necessary to successfully train a model. Potentially, such a discovery has broad impact from the theory to application; however, it is known that finding these trainable sub-network is a typically costly process. This inhibits practical applications: can the learned sub-graph structures in deep learning models be found at training time? In this work we explore such a possibility, observing and motivating why common approaches typically fail in the extreme scenarios of interest, and proposing an approach which potentially enables training with reduced computational effort. The experiments on either challenging architectures and datasets suggest the algorithmic accessibility over such a computational gain, and in particular a trade-off between accuracy achieved and training complexity deployed emerges.
Abstract（参考訳）: ディープラーニング最適化の最近の進歩は、モデルのトレーニングを成功させるためにパラメータのサブセットが本当に必要であることを示している。このような発見は理論から応用まで幅広い影響を与える可能性があるが、訓練可能なサブネットワークを見つけるのは通常コストのかかるプロセスであることが知られている。ディープラーニングモデルにおける学習されたサブグラフ構造は、トレーニング時に見つけることができるか? この研究では、なぜ一般的なアプローチが最も興味深いシナリオで失敗するのかを観察し、モチベーションを与え、計算労力を削減したトレーニングを可能にするアプローチを提案します。挑戦的なアーキテクチャとデータセットに関する実験は、そのような計算的ゲインに対するアルゴリズム的なアクセシビリティを示唆しており、特に、達成された精度とデプロイされた複雑性のトレードオフが出現する。

関連論文リスト

Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Training Neural Networks with Internal State, Unconstrained Connectivity, and Discrete Activations [66.53734987585244]
真のインテリジェンスには、内部状態を管理するマシンラーニングモデルが必要だ。このようなモデルのトレーニングに最も効果的なアルゴリズムは,まだ発見されていない。このようなトレーニングアルゴリズムを2進アクティベーションと1つの重みの行列のみを持つアーキテクチャに適用する試みについて述べる。
論文参考訳（メタデータ） (2023-12-22T01:19:08Z)
Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文参考訳（メタデータ） (2022-03-09T15:56:49Z)
Review of Pedestrian Trajectory Prediction Methods: Comparing Deep Learning and Knowledge-based Approaches [0.0]
本稿では,歩行者動態のシミュレートに広く用いられている古典的知識ベースモデルとディープラーニングアルゴリズムを比較した。大規模シミュレーションのためのディープラーニングアルゴリズムの能力と集合力学の記述は、いまだに実証されていない。
論文参考訳（メタデータ） (2021-11-11T08:35:14Z)
An Operator Theoretic Perspective on Pruning Deep Neural Networks [2.624902795082451]
我々は、動的システム理論の最近の進歩を利用して、理論上動機付けられたプルーニングアルゴリズムの新しいクラスを定義する。これらのアルゴリズムは、等級や勾配に基づくプルーニングと等価であることを示す。
論文参考訳（メタデータ） (2021-10-28T02:33:50Z)
Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。我々はこれらの現象を具体的原理で補うと推測する。
論文参考訳（メタデータ） (2021-03-16T16:26:36Z)
Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep Learning [29.473503894240096]
我々は、厳密な分類ではなく、単純な表現の値を取るデータにカテゴリ横断エントロピー損失を用いることに焦点をあてる。このプラクティスは、ラベルの平滑化やアクター/ミリ波強化学習など、ニューラルネットワークアーキテクチャにおいて標準的なものだ。我々はこれらのモデルに対して確率論的に着想を得た代替案を提案し、より原理的で理論的に魅力的であるアプローチを提供する。
論文参考訳（メタデータ） (2020-11-10T16:44:35Z)
Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。 GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文参考訳（メタデータ） (2020-03-25T11:08:56Z)
Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文参考訳（メタデータ） (2020-03-06T03:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。