Fugu-MT 論文翻訳(概要): Analysis and Optimisation of Bellman Residual Errors with Neural Function Approximation

論文の概要: Analysis and Optimisation of Bellman Residual Errors with Neural Function Approximation

arxiv url: http://arxiv.org/abs/2106.08774v2
Date: Thu, 17 Jun 2021 13:11:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-18 11:22:22.839135
Title: Analysis and Optimisation of Bellman Residual Errors with Neural Function Approximation
Title（参考訳）: 神経機能近似を用いたベルマン残差誤差の解析と最適化
Authors: Martin Gottwald (1), Sven Gronauer (1), Hao Shen (2), Klaus Diepold (1) ((1) Technical University of Munich, (2) fortiss)
Abstract要約: 近年のDeep Reinforcement Learningは,大規模あるいは連続的な状態空間における課題解決において,ニューラルネットワークの優れた性能を実証している。 1つの具体的なアプローチは、Mean Squared Bellman Error関数を最小化することで、ニューラルネットワークを近似値にデプロイすることである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent development of Deep Reinforcement Learning has demonstrated superior performance of neural networks in solving challenging problems with large or even continuous state spaces. One specific approach is to deploy neural networks to approximate value functions by minimising the Mean Squared Bellman Error function. Despite great successes of Deep Reinforcement Learning, development of reliable and efficient numerical algorithms to minimise the Bellman Error is still of great scientific interest and practical demand. Such a challenge is partially due to the underlying optimisation problem being highly non-convex or using incorrect gradient information as done in Semi-Gradient algorithms. In this work, we analyse the Mean Squared Bellman Error from a smooth optimisation perspective combined with a Residual Gradient formulation. Our contribution is two-fold. First, we analyse critical points of the error function and provide technical insights on the optimisation procure and design choices for neural networks. When the existence of global minima is assumed and the objective fulfils certain conditions we can eliminate suboptimal local minima when using over-parametrised neural networks. We can construct an efficient Approximate Newton's algorithm based on our analysis and confirm theoretical properties of this algorithm such as being locally quadratically convergent to a global minimum numerically. Second, we demonstrate feasibility and generalisation capabilities of the proposed algorithm empirically using continuous control problems and provide a numerical verification of our critical point analysis. We outline the short coming of Semi-Gradients. To benefit from an approximate Newton's algorithm complete derivatives of the Mean Squared Bellman error must be considered during training.
Abstract（参考訳）: 近年のDeep Reinforcement Learningは,大規模あるいは連続的な状態空間での課題解決において,ニューラルネットワークの優れた性能を示した。特定のアプローチの一つは、平均二乗ベルマン誤差関数を最小化することで近似値関数にニューラルネットワークを展開することである。ディープ強化学習の大きな成功にもかかわらず、ベルマン誤差を最小限に抑える信頼性と効率のよい数値アルゴリズムの開発は、いまだに科学的な関心と実践的な要求を伴っている。このような課題は、基礎となる最適化問題が非常に非凸であるか、あるいはセミグラディエントアルゴリズムでなされる誤った勾配情報を使用するためである。本研究では,スムーズな最適化の観点から平均正方形ベルマン誤差と残留勾配の定式化を併用して解析する。私たちの貢献は2倍です。まず、誤差関数の臨界点を分析し、ニューラルネットワークの最適化手続きと設計選択に関する技術的な洞察を提供する。大域的ミニマの存在を仮定し、目的が一定の条件を満たすと、オーバーパラメトリドニューラルネットワークを使用する場合、最適な局所最小マを排除できる。この解析に基づいて効率的な近似ニュートンアルゴリズムを構築し、局所的に極小に収束するなど、このアルゴリズムの理論的性質を確認することができる。第2に,連続制御問題を用いた経験的アルゴリズムの実現可能性と一般化能力を示し,臨界点解析の数値検証を行う。セミグラディエントの短所について概説する。ニュートンの近似アルゴリズムの恩恵を受けるためには、訓練中に平均二乗ベルマン誤差の完全な微分を考える必要がある。

関連論文リスト

Understanding Inverse Reinforcement Learning under Overparameterization: Non-Asymptotic Analysis and Global Optimality [52.906438147288256]
我々のアルゴリズムは,特定のニューラルネットワーク構造の下で,最適報酬とポリシーを識別できることが示される。これは、国際的最適性を確実に達成する非漸近収束保証を持つ最初のIRLアルゴリズムである。
論文参考訳（メタデータ） (2025-03-22T21:16:08Z)
Convergence analysis of wide shallow neural operators within the framework of Neural Tangent Kernel [4.313136216120379]
我々は、ニューラルタンジェントカーネル(NTK)の枠組み内で、広い浅層ニューラル演算子と物理インフォームド浅部ニューラル演算子の勾配降下の収束解析を行う。過度なパラメータ化の設定の下では、勾配降下は連続時間であるか離散時間であるかに関わらず、大域的な最小値を見つけることができる。
論文参考訳（メタデータ） (2024-12-07T05:47:28Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
SGD method for entropy error function with smoothing l0 regularization for neural networks [3.108634881604788]
エントロピー誤差関数はニューラルネットワークで広く使われている。本稿では,フィードフォワードニューラルネットワークの規則化を円滑に行うエントロピー関数を提案する。ニューラルネットワークを効果的に学習し、より正確な予測を可能にするため、私たちの仕事は新しくなっています。
論文参考訳（メタデータ） (2024-05-28T19:54:26Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
The limitation of neural nets for approximation and optimization [0.0]
最適化問題における目的関数の近似と最小化のために,ニューラルネットワークを代理モデルとして用いることに関心がある。本研究は、一般的な非線形最適化テスト問題の目的関数を近似する最適なアクティベーション関数を決定することから始まる。
論文参考訳（メタデータ） (2023-11-21T00:21:15Z)
A new approach to generalisation error of machine learning algorithms: Estimates and convergence [0.0]
本稿では,(一般化)誤差の推定と収束に対する新しいアプローチを提案する。本研究の結果は,ニューラルネットワークの構造的仮定を伴わない誤差の推定を含む。
論文参考訳（メタデータ） (2023-06-23T20:57:31Z)
Can Decentralized Stochastic Minimax Optimization Algorithms Converge Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-24T02:19:39Z)
Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-12-10T10:02:31Z)
A Dynamical View on Optimization Algorithms of Overparameterized Neural Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。その結果、ニューラルネットワークの収束挙動を利用することができる。このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文参考訳（メタデータ） (2020-10-25T17:10:22Z)
Fast Learning of Graph Neural Networks with Guaranteed Generalizability: One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文参考訳（メタデータ） (2020-06-25T00:45:52Z)
Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文参考訳（メタデータ） (2020-06-02T11:17:55Z)
Robust Deep Learning as Optimal Control: Insights and Convergence Guarantees [19.28405674700399]
訓練中の敵の例は、敵の攻撃に対する一般的な防御メカニズムです。 min-max問題を最適制御問題として解釈することにより、ニューラルネットワークの構成構造を活用できることが示されている。本稿では、ロバストな最適制御の手法と、最適化における不正確な手法を組み合わせて、この逆学習アルゴリズムの最初の収束解析を行う。
論文参考訳（メタデータ） (2020-05-01T21:26:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。