論文の概要: Variance-Adaptive Optimal Algorithm for Reinforcement Learning with Multinomial Logit Function Approximation
- arxiv url: http://arxiv.org/abs/2605.28364v1
- Date: Wed, 27 May 2026 11:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.027824
- Title: Variance-Adaptive Optimal Algorithm for Reinforcement Learning with Multinomial Logit Function Approximation
- Title(参考訳): 多項ロジット関数近似を用いた強化学習のための可変適応最適アルゴリズム
- Authors: Wonyoung Kim, Min-Hwan Oh, Garud Iyengar, Assaf Zeevi,
- Abstract要約: 我々は,MNLに基づくマルコフ決定過程の新たな理論的解析法を開発した。
我々のアルゴリズムは計算的に効率的であり、上界と下界のギャップを狭め、後悔のインスタンスワイド最適率を達成する。
- 参考スコア(独自算出の注目度): 44.78667480142902
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with multinomial logistic (MNL) function approximation has become an important framework due to its flexibility and broad applicability. While existing studies have established regret guarantees under worst-case analysis, they do not capture how performance depends on the variability of the interaction between the learner and the environment. In this paper, we develop a new theoretical analysis for MNL-based Markov decision processes that yields explicit variance-adaptive regret bounds. Our algorithm is computationally efficient and achieves the instance-wise optimal rate of regret, narrowing the gap between upper and lower bounds. Our numerical experiments validate that our method learns optimal policies more efficiently than conventional approaches.
- Abstract(参考訳): 多項ロジスティック(MNL)関数近似を用いた強化学習は、その柔軟性と幅広い適用性から重要なフレームワークとなっている。
これまでの研究では、最悪のケース分析の下で、後悔の保証が確立されているが、学習者と環境との相互作用のばらつきにパフォーマンスが依存しているかを捉えていない。
本稿では,MNLに基づくマルコフ決定過程に関する新しい理論的解析法を開発し,その特徴を明示する。
我々のアルゴリズムは計算的に効率的であり、上界と下界のギャップを狭めるために、インスタンスワイドの後悔率を達成する。
数値実験により,本手法は従来の手法よりも効率的に最適方針を学習できることが検証された。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数(LQ)制御のクラスに対する強化学習(RL)について検討した。
モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,RLアルゴリズムを設計して,適切なポリシパラメータを直接学習する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Learning-Rate-Free Stochastic Optimization over Riemannian Manifolds [1.6385815610837167]
そこで本研究では,リーマン数に対する最適化のための革新的な学習速度自由アルゴリズムを提案する。
我々は、決定論的設定において最もよく知られた最適調整率と比較して、対数的要因まで最適である高い確率収束を保証する。
提案手法は数値実験によって検証され,学習速度依存アルゴリズムに対する競合性能が実証された。
論文 参考訳(メタデータ) (2024-06-04T13:17:24Z) - Metric Learning to Accelerate Convergence of Operator Splitting Methods for Differentiable Parametric Programming [46.26499759722771]
本稿では,識別可能な最適化が,近位尺度のエンドツーエンド学習をいかに実現するかを示す。
結果は、学習した近位度とオプティマにおけるアクティブな制約との間に強い関連性を示す。
論文 参考訳(メタデータ) (2024-04-01T03:23:43Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。