論文の概要: A Trainable Optimizer
- arxiv url: http://arxiv.org/abs/2508.01764v1
- Date: Sun, 03 Aug 2025 14:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.053317
- Title: A Trainable Optimizer
- Title(参考訳): トレーニング可能なオプティマイザ
- Authors: Ruiqi Wang, Diego Klabjan,
- Abstract要約: モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
- 参考スコア(独自算出の注目度): 18.195022468462753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The concept of learning to optimize involves utilizing a trainable optimization strategy rather than relying on manually defined full gradient estimations such as ADAM. We present a framework that jointly trains the full gradient estimator and the trainable weights of the model. Specifically, we prove that pseudo-linear TO (Trainable Optimizer), a linear approximation of the full gradient, matches SGD's convergence rate while effectively reducing variance. Pseudo-linear TO incurs negligible computational overhead, requiring only minimal additional tensor multiplications. To further improve computational efficiency, we introduce two simplified variants of Pseudo-linear TO. Experiments demonstrate that TO methods converge faster than benchmark algorithms (e.g., ADAM) in both strongly convex and non-convex settings, and fine tuning of an LLM.
- Abstract(参考訳): 最適化の学習という概念は、ADAMのような手動で定義された完全な勾配推定に頼るのではなく、トレーニング可能な最適化戦略を活用することである。
モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
具体的には、全勾配の線形近似である擬線形TO(Trainable Optimizer)が、分散を効果的に低減しつつSGDの収束率と一致することを証明した。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限のテンソル乗算しか必要としない。
Pseudo-linear TOの2つの簡易な変種を導入する。
実験により、TOメソッドは強い凸と非凸の両方でベンチマークアルゴリズム(例えばADAM)よりも高速に収束し、LLMの微調整を行うことが示された。
関連論文リスト
- VAMO: Efficient Large-Scale Nonconvex Optimization via Adaptive Zeroth Order Variance Reduction [3.130722489512822]
VAMOは、ZOGスタイルのフレームワークの下で、FOミニバッチ勾配とZO有限差分プローブを組み合わせる。
VAMOはFO法やZO法よりも優れており、効率を向上させるためにより高速で柔軟な選択肢を提供する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - A Triple-Inertial Accelerated Alternating Optimization Method for Deep Learning Training [3.246129789918632]
勾配降下法(SGD)アルゴリズムは、ディープラーニングモデルのトレーニングにおいて顕著な成功を収めた。
モデルトレーニングの有望な代替手段として、交代最小化(AM)メソッドが登場した。
本稿では,ニューラルネットワークトレーニングのための新しいTriple-Inertial Accelerated Alternating Minimization(TIAM)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:42:17Z) - Optimal DLT-based Solutions for the Perspective-n-Point [0.0]
パースペクティブn-point(Newton)を解くための修正直線形(DLT)アルゴリズムを提案する。
この修正は、線形系における異なる測定を解析的に重み付けし、計算負荷を無視できるほど増加させる。
当社のアプローチは、パフォーマンスとランタイムの両方の改善をクリアします。
論文 参考訳(メタデータ) (2024-10-18T04:04:58Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods
to Deep Binary Model [34.093978443640616]
最近のBNN(Binary Neural Networks)の性能は大幅に低下している。
BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。
そこで本研究では,BAMSProdアルゴリズムを用いて,深部二元モデルの収束特性が量子化誤差と強く関連していることを示す。
論文 参考訳(メタデータ) (2020-09-29T06:12:32Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。