論文の概要: An Improved Adaptive PID Optimizer with Enhanced Convergence and Stability for Deep Learning
- arxiv url: http://arxiv.org/abs/2605.21968v1
- Date: Thu, 21 May 2026 03:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.084025
- Title: An Improved Adaptive PID Optimizer with Enhanced Convergence and Stability for Deep Learning
- Title(参考訳): 深層学習のための収束度と安定性を向上した適応型PID最適化器の改良
- Authors: Saurabh Saini, Kapil Ahuja, Thomas Wick, Saurav Kumar,
- Abstract要約: 適応型PID (AdaPID) は運動量に基づく勾配降下の効率的な方法である。
AdaPIDはAdamから2つの重大な欠点、すなわち収束と安定性の問題を引き継いでいる。
本研究では,AdaPIDに勾配差に基づく変調係数を導入し,収束と安定性の問題を修正する。
我々は、ベンチマークデータセット(MNIST、CIFAR10)や実世界のデータセット(IARC、AnnoCerv)を含む複数のデータセットで提案したデータセットを評価する。
- 参考スコア(独自算出の注目度): 5.640624450766068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization is essential in deep learning. The foundational method upon which most optimizers are built is momentum-based stochastic gradient descent. However, it suffers from two key drawbacks. First, it has noisy and varying gradients, and second, it has an overshoot phenomenon. To address noisy gradients, Adam was proposed, which remains the most widely used adaptive optimizer. To address the overshoot phenomenon, a control-theory-based PID optimizer was proposed. To tackle both the limitations within a single framework, several variants of Adaptive PID (AdaPID) have recently been proposed. Although AdaPID performs well, it still inherits two critical drawbacks from Adam, namely convergence and stability issues. In this work, we address both these limitations. To fix the convergence issue, we uniquely integrate the idea of using a non-increasing effective learning rate into AdaPID (originally proposed in AMSGrad, an extension of Adam). To fix the stability issue, we innovatively integrate a gradient difference based modulation factor into AdaPID (originally proposed in DiffGrad, another extension of Adam). Combining both these ideas in AdaPID, results in our novel IAdaPID-ADG optimizer. We evaluate our proposed optimizer on multiple datasets, including benchmark datasets (MNIST and CIFAR10) and real-world datasets (IARC and AnnoCerv). The IAdaPID-ADG substantially outperforms all competing optimizers. Additionally, we perform an ablation study on the MNIST dataset to demonstrate the contribution of each added component.
- Abstract(参考訳): ディープラーニングでは最適化が不可欠だ。
ほとんどの最適化者が構築される基本的な方法は運動量に基づく確率勾配勾配である。
しかし、2つの欠点がある。
第一に、ノイズと様々な勾配があり、第二に、過度な現象がある。
雑音勾配に対処するため、Adamは最も広く使われている適応最適化器である。
オーバーシュート現象に対処するため,制御理論に基づくPIDオプティマイザが提案された。
一つのフレームワーク内の両方の制限に対処するため、Adaptive PID (AdaPID) のいくつかの変種が最近提案されている。
AdaPIDはよく機能するが、Adamの2つの重大な欠点、すなわち収束と安定性の問題を継承している。
本研究では,これら2つの制限に対処する。
収束問題を解決するために,AdaPID(Adamの拡張であるAMSGradで提案された)に非増加効率の学習率を使用するというアイデアを独自に統合する。
安定性問題を解決するために、勾配差に基づく変調係数をAdaPID(Adamのもう一つの拡張であるDiffGradで提案された)に革新的に統合する。
これら2つのアイデアをAdaPIDに組み合わせることで、新しいIAdaPID-ADGオプティマイザが実現した。
我々は,ベンチマークデータセット(MNISTとCIFAR10)や実世界のデータセット(IARCとAnnoCerv)を含む,複数のデータセットに対して提案したオプティマイザを評価する。
IAdaPID-ADGは競合する全てのオプティマイザより大幅に優れています。
さらに、MNISTデータセットのアブレーション調査を行い、各追加コンポーネントの寄与を実証する。
関連論文リスト
- Anon: Extrapolating Adaptivity Beyond SGD and Adam [25.876261427108673]
Anonは、古典と近代のギャップを埋めることのできる、最初の統一的で信頼性の高いフレームワークを提供する。
Anonはハードトラックよりも柔軟で、ノイズに対する勾配の堅牢性を高める。
論文 参考訳(メタデータ) (2026-05-04T08:14:51Z) - HVAdam: A Full-Dimension Adaptive Optimizer [18.315990067259253]
Anonは、古典と近代のギャップを埋めることのできる、最初の統一的で信頼性の高いフレームワークを提供する。
アニオンはSGDライクな行動とアダムライクな行動の両方を補間する。
論文 参考訳(メタデータ) (2025-11-25T13:05:40Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。