Fugu-MT 論文翻訳(概要): Mixing Implicit and Explicit Deep Learning with Skip DEQs and Infinite Time Neural ODEs (Continuous DEQs)

論文の概要: Mixing Implicit and Explicit Deep Learning with Skip DEQs and Infinite Time Neural ODEs (Continuous DEQs)

arxiv url: http://arxiv.org/abs/2201.12240v1
Date: Fri, 28 Jan 2022 16:51:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-31 15:01:15.054335
Title: Mixing Implicit and Explicit Deep Learning with Skip DEQs and Infinite Time Neural ODEs (Continuous DEQs)
Title（参考訳）: スキップDQと無限時間ニューラルネットワーク(連続DQ)による暗黙と明示的深層学習の混合
Authors: Avik Pal, Alan Edelman, Christopher Rackauckas
Abstract要約: 暗黙の深層学習技術は明示的な層法よりも計算集約的である。我々は,暗黙の予測と暗黙の修正を同時に行う暗黙の明示層であるSkip DEQを開発した。この明示的なレイヤのトレーニングは無料であり、トレーニング時間を2.5倍、予測時間を3.4倍にまで短縮する。
参考スコア（独自算出の注目度）: 3.222802562733787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Implicit deep learning architectures, like Neural ODEs and Deep Equilibrium Models (DEQs), separate the definition of a layer from the description of its solution process. While implicit layers allow features such as depth to adapt to new scenarios and inputs automatically, this adaptivity makes its computational expense challenging to predict. Numerous authors have noted that implicit layer techniques can be more computationally intensive than explicit layer methods. In this manuscript, we address the question: is there a way to simultaneously achieve the robustness of implicit layers while allowing the reduced computational expense of an explicit layer? To solve this we develop Skip DEQ, an implicit-explicit (IMEX) layer that simultaneously trains an explicit prediction followed by an implicit correction. We show that training this explicit layer is free and even decreases the training time by 2.5x and prediction time by 3.4x. We then further increase the "implicitness" of the DEQ by redefining the method in terms of an infinite time neural ODE which paradoxically decreases the training cost over a standard neural ODE by not requiring backpropagation through time. We demonstrate how the resulting Continuous Skip DEQ architecture trains more robustly than the original DEQ while achieving faster training and prediction times. Together, this manuscript shows how bridging the dichotomy of implicit and explicit deep learning can combine the advantages of both techniques.
Abstract（参考訳）: Neural ODEsやDeep Equilibrium Models (DEQs)のような暗黙的なディープラーニングアーキテクチャは、そのソリューションプロセスの記述からレイヤの定義を分離する。暗黙の層は、新しいシナリオや入力に自動的に適応する深度などの特徴を許容するが、この適応性は計算コストの予測を困難にする。多くの著者は暗黙的層手法は明示的な層法よりも計算集約的であると指摘している。明示的なレイヤの計算コストを削減しつつ、暗黙的なレイヤの堅牢性を同時に達成する方法はあるのだろうか? そこで我々は,明示的予測と暗黙的補正を同時に学習する暗黙的拡張(imex)層であるskip deqを開発した。この明示的な層をトレーニングすることは自由であり、トレーニング時間を2.5倍、予測時間を3.4倍も短縮する。さらに、時間的逆伝播を必要とせず、標準の神経回路上でのトレーニングコストをパラドックス的に低減する無限時間神経回路の手法を再定義することにより、DECの「単純さ」をさらに増大させる。連続したスキップdeqアーキテクチャが、元のdeqよりも堅牢にトレーニングし、より高速なトレーニングと予測時間を実現する様子を実証する。この写本は、暗黙の深層学習と明示的な深層学習の二分法が両技法の利点を組み合わせていることを示すものである。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
MLPs at the EOC: Dynamics of Feature Learning [8.430481660019451]
本稿では,勾配降下の収束とそれに伴う特徴の学習を説明する理論を提案する。このような理論は、安定の端(EOS)やカタパルト機構など、実践者が観察する現象もカバーすべきである。
論文参考訳（メタデータ） (2025-02-18T18:23:33Z)
Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文参考訳（メタデータ） (2023-12-25T18:51:23Z)
Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。 SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文参考訳（メタデータ） (2023-10-01T22:43:57Z)
Efficient Training of Deep Equilibrium Models [6.744714965617125]
深層平衡モデル(DEQ)はデータ表現の学習に非常に強力であることが証明されている。この考え方は、従来の(明示的な)フィードフォワードニューラルネットワークを暗黙の固定点方程式で置き換えることである。 DEQ層によるバックプロパゲーションは、高価なヤコビ方程式を解く必要がある。
論文参考訳（メタデータ） (2023-04-23T14:20:09Z)
Locally Regularized Neural Differential Equations: Some Black Boxes Were Meant to Remain Closed! [3.222802562733787]
ニューラル微分方程式のような暗黙の層深層学習技術は重要なモデリングフレームワークとなっている。パフォーマンスとトレーニング時間をトレードオフする2つのサンプリング戦略を開発します。本手法は,関数評価を0.556-0.733xに削減し,予測を1.3-2xに高速化する。
論文参考訳（メタデータ） (2023-03-03T23:31:15Z)
Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文参考訳（メタデータ） (2022-02-10T20:11:21Z)
Training Feedback Spiking Neural Networks by Implicit Differentiation on the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文参考訳（メタデータ） (2021-09-29T07:46:54Z)
Opening the Blackbox: Accelerating Neural Differential Equations by Regularizing Internal Solver Heuristics [0.0]
本論文では,適応微分方程式ソルバの内部コストと離散感性を組み合わせてトレーニング過程を導く新しい正規化手法について述べる。このアプローチは微分方程式解法アルゴリズムの背後にあるブラックボックスの数値解析を開放し、その局所誤差推定と剛性を安価で正確なコスト推定として利用する。当社のアプローチが予測時間を半減させる方法を示し、これがトレーニング時間を桁違いに向上させる方法を示します。
論文参考訳（メタデータ） (2021-05-09T12:03:03Z)
Auto-tuning of Deep Neural Networks by Conflicting Layer Removal [0.0]
トレーニングモデルのテスト精度を低下させる層を識別する新しい手法を提案する。矛盾する層は、トレーニングの開始時に早期に検出される。訓練された残存ネットワークのレイヤの約60%が、アーキテクチャから完全に取り除かれることを示しています。
論文参考訳（メタデータ） (2021-03-07T11:51:55Z)
Reusing Trained Layers of Convolutional Neural Networks to Shorten Hyperparameters Tuning Time [1.160208922584163]
本稿では,この過程を短縮するために,異なるトレーニングで隠蔽層(畳み込み層)の重みを再利用する提案について述べる。実験では、再使用時のトレーニング時間と、畳み込みレイヤの再使用時のバリデーション損失を比較した。彼らはこの戦略がトレーニング時間を短縮し、その結果のニューラルネットワークの精度も向上することを確認した。
論文参考訳（メタデータ） (2020-06-16T11:39:39Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Time Dependence in Non-Autonomous Neural ODEs [74.78386661760662]
時変重みを持つニューラルODEの新しいファミリーを提案する。我々は、速度と表現能力の両面で、従来のニューラルODEの変形よりも優れていた。
論文参考訳（メタデータ） (2020-05-05T01:41:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。