論文の概要: Annealing Optimization for Progressive Learning with Stochastic
Approximation
- arxiv url: http://arxiv.org/abs/2209.02826v1
- Date: Tue, 6 Sep 2022 21:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:12:50.294811
- Title: Annealing Optimization for Progressive Learning with Stochastic
Approximation
- Title(参考訳): 確率近似を用いた進行学習のためのアニーリング最適化
- Authors: Christos Mavridis and John Baras
- Abstract要約: 計算資源が限られているアプリケーションのニーズを満たすために設計された学習モデルを導入する。
我々は,オンラインな勾配近似アルゴリズムとして定式化されたオンラインプロトタイプベースの学習アルゴリズムを開発した。
学習モデルは、教師なし、教師なし、強化学習に使用される、解釈可能で、徐々に成長する競争的ニューラルネットワークモデルと見なすことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce a learning model designed to meet the needs of
applications in which computational resources are limited, and robustness and
interpretability are prioritized. Learning problems can be formulated as
constrained stochastic optimization problems, with the constraints originating
mainly from model assumptions that define a trade-off between complexity and
performance. This trade-off is closely related to over-fitting, generalization
capacity, and robustness to noise and adversarial attacks, and depends on both
the structure and complexity of the model, as well as the properties of the
optimization methods used. We develop an online prototype-based learning
algorithm based on annealing optimization that is formulated as an online
gradient-free stochastic approximation algorithm. The learning model can be
viewed as an interpretable and progressively growing competitive-learning
neural network model to be used for supervised, unsupervised, and reinforcement
learning. The annealing nature of the algorithm contributes to minimal
hyper-parameter tuning requirements, poor local minima prevention, and
robustness with respect to the initial conditions. At the same time, it
provides online control over the performance-complexity trade-off by
progressively increasing the complexity of the learning model as needed,
through an intuitive bifurcation phenomenon. Finally, the use of stochastic
approximation enables the study of the convergence of the learning algorithm
through mathematical tools from dynamical systems and control, and allows for
its integration with reinforcement learning algorithms, constructing an
adaptive state-action aggregation scheme.
- Abstract(参考訳): 本研究では,計算資源が制限され,堅牢性と解釈性が優先されるアプリケーションのニーズを満たすための学習モデルを提案する。
学習問題は制約付き確率的最適化問題として定式化することができ、主に複雑性と性能のトレードオフを定義するモデル仮定に由来する。
このトレードオフは、過度な適合性、一般化能力、およびノイズや敵攻撃に対する堅牢性に密接に関係しており、モデルの構造と複雑さ、および使用される最適化方法の特性に依存する。
オンライン勾配フリー確率近似アルゴリズムとして定式化したアニーリング最適化に基づくオンラインプロトタイプベースの学習アルゴリズムを開発した。
学習モデルは、教師付き、教師なし、強化学習に使用される、解釈可能で徐々に成長する競争学習ニューラルネットワークモデルと見なすことができる。
アルゴリズムのアニール性は、最小限のハイパーパラメータチューニング要求、低局所最小化防止、初期条件に対する堅牢性に寄与する。
同時に、直感的な分岐現象を通じて、学習モデルの複雑さを必要に応じて増やすことで、パフォーマンスと複雑さのトレードオフをオンラインに制御する。
最後に、確率近似を用いることで、力学系や制御からの数学的ツールによる学習アルゴリズムの収束の研究が可能となり、強化学習アルゴリズムとの統合が可能となり、適応状態-動作集約スキームを構築することができる。
関連論文リスト
- Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - Learning to optimize with convergence guarantees using nonlinear system theory [0.4143603294943439]
本研究では,スムーズな目的関数に対するアルゴリズムの非制約パラメトリゼーションを提案する。
特に、私たちのフレームワークは自動微分ツールと直接互換性があります。
論文 参考訳(メタデータ) (2024-03-14T13:40:26Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Online Deterministic Annealing for Classification and Clustering [0.0]
本稿では,クラスタリングと分類のためのオンラインプロトタイプベースの学習アルゴリズムを提案する。
本稿では,提案アルゴリズムが競合学習ニューラルネットワークを構成することを示し,その学習規則をオンライン近似アルゴリズムとして定式化する。
論文 参考訳(メタデータ) (2021-02-11T04:04:21Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。