論文の概要: Reversible Deep Equilibrium Models
- arxiv url: http://arxiv.org/abs/2509.12917v1
- Date: Tue, 16 Sep 2025 10:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.025285
- Title: Reversible Deep Equilibrium Models
- Title(参考訳): 可逆的深部平衡モデル
- Authors: Sam McCallum, Kamran Arora, James Foster,
- Abstract要約: 可逆的なDeep Equilibrium Models (RevDEQs)を紹介する。
RevDEQは正確な勾配計算を可能にし、正規化は行わず、DevQよりもはるかに少ない関数評価を行う。
本稿では,RevDEQが言語モデリングおよび画像分類タスクの最先端性能を達成することを示す。
- 参考スコア(独自算出の注目度): 2.007262412327553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Equilibrium Models (DEQs) are an interesting class of implicit model where the model output is implicitly defined as the fixed point of a learned function. These models have been shown to outperform explicit (fixed-depth) models in large-scale tasks by trading many deep layers for a single layer that is iterated many times. However, gradient calculation through DEQs is approximate. This often leads to unstable training dynamics and requires regularisation or many function evaluations to fix. Here, we introduce Reversible Deep Equilibrium Models (RevDEQs) that allow for exact gradient calculation, no regularisation and far fewer function evaluations than DEQs. We show that RevDEQs achieve state-of-the-art performance on language modelling and image classification tasks against comparable implicit and explicit models.
- Abstract(参考訳): 深度平衡モデル(Deep Equilibrium Models, DEQ)は、学習関数の固定点としてモデル出力が暗黙的に定義される暗黙モデルである。
これらのモデルは、多数の深い層を複数回繰り返して取引することで、大規模タスクにおいて明示的な(固定深度)モデルよりも優れていることが示されている。
しかし、DECによる勾配計算は近似的である。
これはしばしば不安定なトレーニングダイナミクスをもたらし、修正には正規化や多くの機能評価が必要になる。
本稿では,Reversible Deep Equilibrium Models (RevDEQs)を導入し,厳密な勾配計算,正規化の不要,DECよりもはるかに少ない関数評価を実現する。
本稿では,RevDEQが言語モデリングおよび画像分類タスクの最先端性能を,類似の暗黙的および明示的モデルに対して達成することを示す。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Classification-based Quality Estimation: Small and Efficient Models for
Real-world Applications [29.380675447523817]
機械翻訳の文レベル品質評価(QE)は、伝統的に回帰タスクとして定式化されている。
近年のQEモデルでは, 人的判断と既往の相関が達成されている。
我々はQEのモデル圧縮技術を評価し、他のNLPタスクで人気があるにもかかわらず、この回帰環境では性能が劣っていることを発見した。
論文 参考訳(メタデータ) (2021-09-17T16:14:52Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Do We Really Need Deep Learning Models for Time Series Forecasting? [4.2698418800007865]
時系列予測は、幅広い応用があるため、機械学習において重要なタスクである。
ディープラーニングとマトリックスファクタリゼーションモデルは、より競争力のあるパフォーマンスで同じ問題に取り組むために最近提案されている。
本稿では,これらの高度に複雑なディープラーニングモデルが代替手段がないかどうかを問う。
論文 参考訳(メタデータ) (2021-01-06T16:18:04Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。