論文の概要: A Geometric Nash Approach in Tuning the Learning Rate in Q-Learning Algorithm
- arxiv url: http://arxiv.org/abs/2408.04911v1
- Date: Fri, 9 Aug 2024 07:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:28:59.473151
- Title: A Geometric Nash Approach in Tuning the Learning Rate in Q-Learning Algorithm
- Title(参考訳): Q-Learningアルゴリズムにおける学習率調整のための幾何学的ナッシュアプローチ
- Authors: Kwadwo Osei Bonsu,
- Abstract要約: 我々は、アルファパラメータを最適化し、学習効率と安定性を向上させるための体系的な枠組みを確立する。
その結果,学習速度とベクトルT(学習の各エピソードの時間ステップ)とR(各エピソードの報酬ベクトル)の角度の関係が示唆された。
ベクトル T と R と Nash Equilibrium の間の角二部ベクトルの概念は、探索と探索のトレードオフによる損失を最小限に抑えるために$alpha$を推定する洞察を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a geometric approach for estimating the $\alpha$ value in Q learning. We establish a systematic framework that optimizes the {\alpha} parameter, thereby enhancing learning efficiency and stability. Our results show that there is a relationship between the learning rate and the angle between a vector T (total time steps in each episode of learning) and R (the reward vector for each episode). The concept of angular bisector between vectors T and R and Nash Equilibrium provide insight into estimating $\alpha$ such that the algorithm minimizes losses arising from exploration-exploitation trade-off.
- Abstract(参考訳): 本稿ではQ学習における$\alpha$値を推定するための幾何学的アプローチを提案する。
そこで我々は,パラメータを最適化し,学習効率と安定性を向上させるための体系的な枠組みを構築した。
その結果,学習速度とベクトルT(学習の各エピソードの時間ステップ)とR(各エピソードの報酬ベクトル)の角度の関係が示唆された。
ベクトル T と R と Nash Equilibrium の間の角二部ベクトルの概念は、探索と探索のトレードオフによる損失を最小限に抑えるために$\alpha$ を推定する洞察を与える。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Limited Memory Online Gradient Descent for Kernelized Pairwise Learning
with Dynamic Averaging [18.843097436906618]
実例の独立性を必要としない軽量なOGDアルゴリズムを導入し、カーネル対学習に一般化する。
提案アルゴリズムは,ランダムな例と過去のデータを表す移動平均に基づいて勾配を構築し,その結果,O(T)$の複雑さに縛られたサブ線形後悔が生じる。
実世界のデータセットによるいくつかの実験では、複雑性技術がオフラインおよびオンラインシナリオでカーネルと線形勾配を上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-02T05:21:50Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Robust Methods for High-Dimensional Linear Learning [0.0]
統計的に頑健で計算効率の良い線形学習法を高次元バッチ設定で提案する。
バニラスパース、グループスパース、低ランク行列回復など、いくつかのアプリケーションでフレームワークをインスタンス化する。
バニラ $s$-sparsity の場合、重いテールと $eta$-corruption の下で $slog (d)/n$ レートに達することができます。
論文 参考訳(メタデータ) (2022-08-10T17:00:41Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - A Lyapunov Theory for Finite-Sample Guarantees of Asynchronous
Q-Learning and TD-Learning Variants [39.28675942566465]
本稿では,値に基づく非同期RLアルゴリズムのクラスに対する有限サンプル収束保証について検討する枠組みを開発する。
副産物として、偏差トレードオフ、すなわちRLにおけるブートストラップの効率に関する理論的知見を提供する。
論文 参考訳(メタデータ) (2021-02-02T15:48:19Z) - Learning Sign-Constrained Support Vector Machines [0.24466725954625884]
符号制約下で経験的リスクを最小化するための2つの最適化アルゴリズムを開発した。
2つのアルゴリズムのうちの1つは、投影勾配法に基づいており、投影勾配法の各イテレーションは計算コストが$o(nd)である。
訓練例と類似性が特徴ベクトルを構成する場合,符号制約が有望な手法であることを実証する。
論文 参考訳(メタデータ) (2021-01-05T12:08:17Z) - Stochastic Flows and Geometric Optimization on the Orthogonal Group [52.50121190744979]
直交群 $O(d)$ 上の幾何駆動最適化アルゴリズムの新しいクラスを示す。
提案手法は,深層,畳み込み,反復的なニューラルネットワーク,強化学習,フロー,メトリック学習など,機械学習のさまざまな分野に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-03-30T15:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。