論文の概要: Quantizer Design for Finite Model Approximations, Model Learning, and Quantized Q-Learning for MDPs with Unbounded Spaces
- arxiv url: http://arxiv.org/abs/2510.04355v1
- Date: Sun, 05 Oct 2025 20:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.60176
- Title: Quantizer Design for Finite Model Approximations, Model Learning, and Quantized Q-Learning for MDPs with Unbounded Spaces
- Title(参考訳): 非有界空間を持つMDPのための有限モデル近似、モデル学習、量子Qラーニングのための量子化器設計
- Authors: Osman Bicer, Ali D. Kara, Serdar Yuksel,
- Abstract要約: 有限モデル近似誤差について, [Kara et. al. JMLR'23] で表される洗練された上界について述べる。
また、量子化Q-ラーニングと経験モデルラーニングにおける量化器設計の意義についても考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, for Markov decision processes (MDPs) with unbounded state spaces we present refined upper bounds presented in [Kara et. al. JMLR'23] on finite model approximation errors via optimizing the quantizers used for finite model approximations. We also consider implications on quantizer design for quantized Q-learning and empirical model learning, and the performance of policies obtained via Q-learning where the quantized state is treated as the state itself. We highlight the distinctions between planning, where approximating MDPs can be independently designed, and learning (either via Q-learning or empirical model learning), where approximating MDPs are restricted to be defined by invariant measures of Markov chains under exploration policies, leading to significant subtleties on quantizer design performance, even though asymptotic near optimality can be established under both setups. In particular, under Lyapunov growth conditions, we obtain explicit upper bounds which decay to zero as the number of bins approaches infinity.
- Abstract(参考訳): 本稿では, 有限モデル近似における [Kara et al JMLR'23] で示される洗練された上界を, 有限モデル近似に使用する量化器を最適化することにより, マルコフ決定過程(MDP)について述べる。
また、量子化されたQ-ラーニングと経験的モデルラーニングのための量化器設計や、量子化された状態が状態自身として扱われるQ-ラーニングによって得られるポリシーの性能についても考察する。
我々は,MDPを個別に設計できるプランニングと,MDPを探索政策の下でマルコフ連鎖の不変測度で定義することを制限した学習(Q-ラーニングあるいは経験モデル学習)の区別を強調し,両設定で漸近的近接最適性を確立できたとしても,量化器設計性能に大きな微妙さをもたらす。
特に、リャプノフ成長条件の下では、ビンの数が無限大に近づくにつれて 0 に崩壊する明示的な上界が得られる。
関連論文リスト
- Boost Post-Training Quantization via Null Space Optimization for Large Language Models [28.57705976553512]
既存の大規模言語モデル(LLM)の学習後量子化手法は驚くべき成功を収めている。
余分な性能向上は、既存の量子化戦略がより圧縮されたモデルの開発を支援するには不十分であることを示唆している。
我々は、量子化後の重みを入力アクティベーションのヌル空間内に配置することで、量子化誤差を効果的に緩和することができると論じる。
論文 参考訳(メタデータ) (2025-05-21T14:07:07Z) - Q-Learning for Stochastic Control under General Information Structures
and Non-Markovian Environments [1.90365714903665]
反復に対する収束定理を提示し、特に一般の、おそらくは非マルコフ的環境下でのQ学習を反復する。
非マルコフ環境における様々な制御問題に対するこの定理の意義と応用について論じる。
論文 参考訳(メタデータ) (2023-10-31T19:53:16Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Q-Learning for MDPs with General Spaces: Convergence and Near Optimality
via Quantization under Weak Continuity [2.685668802278156]
状態と行動の量子化による標準ボレル MDP のQ-ラーニングが限界に収束することを示す。
本稿では,連続型MDPに対するQ-ラーニングの適用性について,非常に一般的な収束と近似結果を示す。
論文 参考訳(メタデータ) (2021-11-12T15:47:10Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。