論文の概要: Gradients are Not All You Need
- arxiv url: http://arxiv.org/abs/2111.05803v1
- Date: Wed, 10 Nov 2021 16:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 14:28:05.176539
- Title: Gradients are Not All You Need
- Title(参考訳): 勾配は必要なだけではありません
- Authors: Luke Metz, C. Daniel Freeman, Samuel S. Schoenholz, Tal Kachman
- Abstract要約: さまざまな異なる状況に現れる共通のカオスベースの障害モードについて議論する。
我々は、この失敗を研究中のシステムのヤコビアンスペクトルに遡り、この失敗が微分に基づく最適化アルゴリズムを損なうことを実践者がいつ期待するかの基準を提供する。
- 参考スコア(独自算出の注目度): 28.29420710601308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable programming techniques are widely used in the community and
are responsible for the machine learning renaissance of the past several
decades. While these methods are powerful, they have limits. In this short
report, we discuss a common chaos based failure mode which appears in a variety
of differentiable circumstances, ranging from recurrent neural networks and
numerical physics simulation to training learned optimizers. We trace this
failure to the spectrum of the Jacobian of the system under study, and provide
criteria for when a practitioner might expect this failure to spoil their
differentiation based optimization algorithms.
- Abstract(参考訳): 差別化可能なプログラミング技術はコミュニティで広く使われており、過去数十年の機械学習のルネッサンスに責任がある。
これらの方法は強力ですが、限界があります。
本稿では、リカレントニューラルネットワークや数値物理シミュレーションから学習したオプティマイザのトレーニングまで、さまざまな異なる状況に現れる一般的なカオスベースの障害モードについて論じる。
我々は、この失敗を研究中のシステムのヤコビアンスペクトルに遡り、この失敗が微分に基づく最適化アルゴリズムを損なうことを実践者がいつ期待するかの基準を提供する。
関連論文リスト
- ODE Discovery for Longitudinal Heterogeneous Treatment Effects Inference [69.24516189971929]
本稿では, 閉形式常微分方程式(ODE)という, 縦条件下での新しい解法を提案する。
私たちはまだODEを学ぶために継続的な最適化に依存していますが、結果として生じる推論マシンはもはやニューラルネットワークではありません。
論文 参考訳(メタデータ) (2024-03-16T02:07:45Z) - Hierarchical deep learning-based adaptive time-stepping scheme for
multiscale simulations [0.0]
本研究では,ディープニューラルネットワークを用いたマルチスケール問題のシミュレーション手法を提案する。
ニューラルネットワークのタイムステッパーの階層的学習を活用することで、タイムスケールにわたる動的システムフローマップの近似に時間ステップを適用する。
このアプローチは、固定ステップニューラルネットワークソルバと比較して計算時間が少なくて最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-10T09:47:58Z) - Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Recent Developments in Machine Learning Methods for Stochastic Control
and Games [3.3993877661368757]
近年,制御問題やゲームを解決するため,機械学習に基づく計算手法が開発されている。
我々は,高次元や構造が非常に複雑である場合においても,そのような問題を解く可能性を解き明かした深層学習手法に焦点をあてる。
本稿では,これらの手法について紹介し,機械学習と制御とゲームのクロスロードにおける最先端の成果を要約する。
論文 参考訳(メタデータ) (2023-03-17T21:53:07Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Leveraging Reward Gradients For Reinforcement Learning in Differentiable
Physics Simulations [11.4219428942199]
制御のための強化学習の文脈において、剛体物理学シミュレータは理論上、報酬関数の分析勾配に直接アルゴリズムを適用することができる。
本稿では,これらの勾配を利用して,難解な非線形制御問題の集合上での深部強化学習の精度を向上する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-06T02:28:46Z) - Physical Gradients for Deep Learning [101.36788327318669]
最先端のトレーニング技術は、物理的なプロセスに関わる多くの問題に適していないことが分かりました。
本稿では,高次最適化手法と機械学習手法を組み合わせた新しいハイブリッドトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-30T12:14:31Z) - Comparison of Update and Genetic Training Algorithms in a Memristor
Crossbar Perceptron [4.649999862713524]
特定のトレーニングアルゴリズムが、特定のハードウェア障害モードに対してより耐性があるかどうかを検討する。
2つのトレーニングアルゴリズム – ローカル更新スキームと遺伝的アルゴリズム – を,シミュレートされたmemristorクロスバーに実装する。
トレーニング失敗率のいくつかの尺度において,2つのアルゴリズムの間に明確な違いがあることを実証する。
論文 参考訳(メタデータ) (2020-12-10T23:48:58Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Learning to Rank Learning Curves [15.976034696758148]
本稿では,トレーニングの早い段階で,構成不良を解消し,計算予算を削減できる新しい手法を提案する。
我々は,学習曲線を観測することなく,学習曲線を効果的にランク付けできることを示す。
論文 参考訳(メタデータ) (2020-06-05T10:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。