Fugu-MT 論文翻訳(概要): Test like you Train in Implicit Deep Learning

論文の概要: Test like you Train in Implicit Deep Learning

arxiv url: http://arxiv.org/abs/2305.15042v1
Date: Wed, 24 May 2023 11:30:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 16:24:57.075206
Title: Test like you Train in Implicit Deep Learning
Title（参考訳）: 深層学習のトレーニングのようにテストする
Authors: Zaccharie Ramzi, Pierre Ablin, Gabriel Peyr\'e, Thomas Moreau
Abstract要約: 暗黙のディープラーニングは、メタラーニングからDeep Equilibrium Networks (DEQs) まで幅広いアプリケーションで最近人気を集めている。実際には、内部問題の解は反復的な手順で訓練中に近似される。一般的に信じられているのは、トレーニングで使用するものよりも内部イテレーションの数を増やすことで、パフォーマンスが向上するということだ。オーバーパラメトリゼーション(overparametrization)が重要な役割を担っていることを実証する。
参考スコア（独自算出の注目度）: 14.45476536423703
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Implicit deep learning has recently gained popularity with applications ranging from meta-learning to Deep Equilibrium Networks (DEQs). In its general formulation, it relies on expressing some components of deep learning pipelines implicitly, typically via a root equation called the inner problem. In practice, the solution of the inner problem is approximated during training with an iterative procedure, usually with a fixed number of inner iterations. During inference, the inner problem needs to be solved with new data. A popular belief is that increasing the number of inner iterations compared to the one used during training yields better performance. In this paper, we question such an assumption and provide a detailed theoretical analysis in a simple setting. We demonstrate that overparametrization plays a key role: increasing the number of iterations at test time cannot improve performance for overparametrized networks. We validate our theory on an array of implicit deep-learning problems. DEQs, which are typically overparametrized, do not benefit from increasing the number of iterations at inference while meta-learning, which is typically not overparametrized, benefits from it.
Abstract（参考訳）: 暗黙のディープラーニングは、メタラーニングからDeep Equilibrium Networks (DEQs)まで幅広いアプリケーションで最近人気を集めている。一般的な定式化では、ディープラーニングパイプラインのいくつかのコンポーネントを暗黙的に表現することに依存している。実際には、内的問題の解は、通常一定数の内的反復を伴う反復的な手順で訓練中に近似される。推論の間、内部問題は新しいデータで解決する必要がある。一般的に信じられているのは、トレーニングで使用するものよりも内部イテレーションの数を増やすことで、パフォーマンスが向上するということだ。本稿では,このような仮定に疑問を呈し,簡単な設定で詳細な理論解析を行う。テスト時のイテレーション数の増加は、過度にパラメータ化されたネットワークのパフォーマンスを改善することができない。暗黙的なディープラーニング問題に対して,我々の理論を検証した。 deqは、通常、過剰パラメータ化されているが、推論時のイテレーション数の増加の恩恵を受けないが、メタラーニングは、通常、過剰パラメータ化されていない。

関連論文リスト

Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
Understanding Sparse Feature Updates in Deep Networks using Iterative Linearisation [2.33877878310217]
本稿では,より大規模で深いネットワークが一般化する理由を解明する実験ツールとして,反復線形化学習法を考案する。様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同程度に驚くほど機能することを示す。また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
論文参考訳（メタデータ） (2022-11-22T15:34:59Z)
Training Thinner and Deeper Neural Networks: Jumpstart Regularization [2.8348950186890467]
我々は、神経細胞が死滅したり線状になるのを防ぐために正規化を使用します。従来のトレーニングと比較して、より薄く、より深く、そして(最も重要な)よりパラメータ効率の高いニューラルネットワークが得られます。
論文参考訳（メタデータ） (2022-01-30T12:11:24Z)
Path Regularization: A Convexity and Sparsity Inducing Regularization for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文参考訳（メタデータ） (2021-10-18T18:00:36Z)
DeepSplit: Scalable Verification of Deep Neural Networks via Operator Splitting [70.62923754433461]
入力摂動に対するディープニューラルネットワークの最悪の性能を分析することは、大規模な非最適化問題の解決につながる。解析解を持つ小さなサブプロブレムに分割することで,問題の凸緩和を直接高精度に解ける新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-16T20:43:49Z)
What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文参考訳（メタデータ） (2021-06-08T08:58:00Z)
DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。 DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文参考訳（メタデータ） (2021-02-05T11:31:24Z)
Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文参考訳（メタデータ） (2020-11-27T15:08:34Z)
A Partial Regularization Method for Network Compression [0.0]
本稿では, モデル圧縮を高速に行うために, 完全正則化と言われる全てのパラメータをペナライズする元の形式ではなく, 部分正則化のアプローチを提案する。実験結果から, ほぼすべての状況において, 走行時間の減少を観測することにより, 計算複雑性を低減できることが示唆された。驚くべきことに、複数のデータセットのトレーニングフェーズとテストフェーズの両方において、回帰フィッティング結果や分類精度などの重要な指標を改善するのに役立ちます。
論文参考訳（メタデータ） (2020-09-03T00:38:27Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Physarum Powered Differentiable Linear Programming Layers and Applications [48.77235931652611]
一般線形プログラミング問題に対する効率的かつ微分可能な解法を提案する。本稿では,ビデオセグメンテーションタスクとメタラーニングにおける問題解決手法について述べる。
論文参考訳（メタデータ） (2020-04-30T01:50:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。