論文の概要: Finite-Time Bounds for Average-Reward Fitted Q-Iteration
- arxiv url: http://arxiv.org/abs/2510.17391v1
- Date: Mon, 20 Oct 2025 10:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.410786
- Title: Finite-Time Bounds for Average-Reward Fitted Q-Iteration
- Title(参考訳): 平均逆フィットQ-Iterationのための有限時間境界
- Authors: Jongmin Lee, Ernest K. Ryu,
- Abstract要約: MDP を弱通信する関数近似を用いた平均逆オフライン RL に対する最初のサンプル複雑性値を確立した。
平均逆条件下での有限時間解析を可能にするためには, アンカーを重み減衰の一形態として解釈することが重要である。
- 参考スコア(独自算出の注目度): 28.213334434903775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although there is an extensive body of work characterizing the sample complexity of discounted-return offline RL with function approximations, prior work on the average-reward setting has received significantly less attention, and existing approaches rely on restrictive assumptions, such as ergodicity or linearity of the MDP. In this work, we establish the first sample complexity results for average-reward offline RL with function approximation for weakly communicating MDPs, a much milder assumption. To this end, we introduce Anchored Fitted Q-Iteration, which combines the standard Fitted Q-Iteration with an anchor mechanism. We show that the anchor, which can be interpreted as a form of weight decay, is crucial for enabling finite-time analysis in the average-reward setting. We also extend our finite-time analysis to the setup where the dataset is generated from a single-trajectory rather than IID transitions, again leveraging the anchor mechanism.
- Abstract(参考訳): 関数近似による割引リターンオフラインRLのサンプル複雑性を特徴付ける広範な作業体が存在するが、平均リワード設定に関する先行研究は、大幅に注目され、既存のアプローチは、MDPのエルゴディディティや線形性のような制限的な仮定に依存している。
本研究では,MDP を弱通信する関数近似を用いた平均逆オフライン RL に対する最初のサンプル複雑性値を確立する。
この目的のために、標準のFitted Q-Iterationとアンカー機構を組み合わせたAnchored Fitted Q-Iterationを導入する。
平均逆条件下での有限時間解析を可能にするためには, アンカーを重み減衰の一形態として解釈することが重要である。
また、この有限時間解析を、ID遷移ではなく単一軌道からデータセットが生成される設定にまで拡張し、アンカー機構を再び活用します。
関連論文リスト
- Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning [50.81240969750462]
我々は、ロバスト平均マルコフ決定過程(PMD)における政策評価の第1次有限サンプル解析を提案する。
頑健なベルマン作用素は、慎重に構築された半ノルムの下で収縮し、制御バイアスを持つフレームワークを開発することを示す。
本手法は,ロバストな政策評価とロバストな平均報酬推定のために,$tildemathcalO(epsilon-2)$のオーダー最適サンプル複雑性を実現する。
論文 参考訳(メタデータ) (2025-02-24T03:55:09Z) - Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - A Dynamical System View of Langevin-Based Non-Convex Sampling [44.002384711340966]
非サンプリングは機械学習における重要な課題であり、ディープラーニングにおける非レート最適化の中心であり、その重要性を近似する。
既存の保証は通常、より望ましい最終段階の反復よりも平均距離のみを保持する。
我々は、理論システムからいくつかのツールを活用することにより、上記の問題を解消する新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-25T09:43:36Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。