論文の概要: On the Global Convergence of Fitted Q-Iteration with Two-layer Neural
Network Parametrization
- arxiv url: http://arxiv.org/abs/2211.07675v1
- Date: Mon, 14 Nov 2022 19:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:34:01.833128
- Title: On the Global Convergence of Fitted Q-Iteration with Two-layer Neural
Network Parametrization
- Title(参考訳): 2層ニューラルネットワークパラメトリゼーションを用いた適合q音の大域収束について
- Authors: Mudit Gaur, Vaneet Aggarwal, Mridul Aggarwal
- Abstract要約: 本稿では,2層型ReLUニューラルネットワークを用いたQ-Iterationについて検討し,アルゴリズムの複雑さの保証を求める。
このアプローチは,オーダー最適化である $tildemathcalO (1/epsilon2)$ のサンプル複雑性を実現する。
- 参考スコア(独自算出の注目度): 33.12181620473604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Q-learning based algorithms have been applied successfully in many
decision making problems, while their theoretical foundations are not as well
understood. In this paper, we study a Fitted Q-Iteration with two-layer ReLU
neural network parametrization, and find the sample complexity guarantees for
the algorithm. The approach estimates the Q-function in each iteration using a
convex optimization problem. We show that this approach achieves a sample
complexity of $\tilde{\mathcal{O}}(1/\epsilon^{2})$, which is order-optimal.
This result holds for a countable state-space and does not require any
assumptions such as a linear or low rank structure on the MDP.
- Abstract(参考訳): 深いQ-ラーニングに基づくアルゴリズムは多くの意思決定問題にうまく適用されているが、理論的基礎はよく理解されていない。
本稿では,2層型ReLUニューラルネットワークを用いたQ-Iterationについて検討し,アルゴリズムの複雑さの保証を求める。
このアプローチは凸最適化問題を用いて各イテレーションのQ関数を推定する。
このアプローチは、オーダー最適化である$\tilde{\mathcal{O}}(1/\epsilon^{2})$のサンプル複雑性を実現する。
この結果は可算状態空間に対して成り立ち、MDP上の線型構造や低階構造のような仮定は不要である。
関連論文リスト
- Depth scaling of unstructured search via quantum approximate optimization [0.0]
変分量子アルゴリズムは、現在の量子計算のデファクトモデルとなっている。
そのような問題の1つは、ある文字列の特定のビットを見つけることで構成される非構造化探索である。
我々は、CTQWを用いてQAOA配列を復元し、最近のトロッター公式の理論の進歩を利用して、クエリの複雑さを束縛する。
論文 参考訳(メタデータ) (2024-03-22T18:00:03Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - On the Global Convergence of Natural Actor-Critic with Two-layer Neural
Network Parametrization [38.32265770020665]
本稿では,ニューラルネットワークを用いた自然なアクター批判アルゴリズムについて検討する。
本研究の目的は,本アルゴリズムの性能特性のより深い理解を実現することにある。
論文 参考訳(メタデータ) (2023-06-18T06:22:04Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Global Optimality Beyond Two Layers: Training Deep ReLU Networks via
Convex Programs [39.799125462526234]
我々は凸最適化のレンズを通して隠れ正規化機構を明らかにするための新しい統一フレームワークを開発した。
我々は、合成データセットと実データセットの両方を含む実験を通して、理論的結果を数値的に検証する。
論文 参考訳(メタデータ) (2021-10-11T18:00:30Z) - Q-Match: Iterative Shape Matching via Quantum Annealing [64.74942589569596]
形状対応を見つけることは、NP-hard quadratic assignment problem (QAP)として定式化できる。
本稿では,アルファ拡大アルゴリズムに触発されたQAPの反復量子法Q-Matchを提案する。
Q-Match は、実世界の問題にスケールできるような長文対応のサブセットにおいて、反復的に形状マッチング問題に適用できる。
論文 参考訳(メタデータ) (2021-05-06T17:59:38Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Vector-output ReLU Neural Network Problems are Copositive Programs:
Convex Analysis of Two Layer Networks and Polynomial-time Algorithms [29.975118690758126]
2層ベクトル無限ReLUニューラルネットワークトレーニング問題の半出力グローバル双対について述べる。
特定の問題のクラスに対して正確であることが保証されるソリューションを提供する。
論文 参考訳(メタデータ) (2020-12-24T17:03:30Z) - Distributed Stochastic Consensus Optimization with Momentum for
Nonconvex Nonsmooth Problems [45.88640334610308]
本稿では,非滑らかな問題に対する分散最適化アルゴリズムを提案する。
提案アルゴリズムは,過度な通信を実現することができることを示す。
提案アルゴリズムの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-11-10T13:12:21Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。