論文の概要: Minimum information divergence of Q-functions for dynamic treatment
resumes
- arxiv url: http://arxiv.org/abs/2211.08741v1
- Date: Wed, 16 Nov 2022 08:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:17:42.385504
- Title: Minimum information divergence of Q-functions for dynamic treatment
resumes
- Title(参考訳): 動的治療再開のためのq関数の最小情報発散
- Authors: Shinto Eguchi
- Abstract要約: 我々は、すべてのQ-函数の空間において、ポリシー同値と呼ばれる同値関係を導入する。
情報分散のクラスは、各ステージのQ-函数空間で定義される。
数値実験により, 動的処理系における最小$gamma$-power divergence法の性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims at presenting a new application of information geometry to
reinforcement learning focusing on dynamic treatment resumes. In a standard
framework of reinforcement learning, a Q-function is defined as the conditional
expectation of a reward given a state and an action for a single-stage
situation. We introduce an equivalence relation, called the policy equivalence,
in the space of all the Q-functions. A class of information divergence is
defined in the Q-function space for every stage. The main objective is to
propose an estimator of the optimal policy function by a method of minimum
information divergence based on a dataset of trajectories. In particular, we
discuss the $\gamma$-power divergence that is shown to have an advantageous
property such that the $\gamma$-power divergence between policy-equivalent
Q-functions vanishes. This property essentially works to seek the optimal
policy, which is discussed in a framework of a semiparametric model for the
Q-function. The specific choices of power index $\gamma$ give interesting
relationships of the value function, and the geometric and harmonic means of
the Q-function. A numerical experiment demonstrates the performance of the
minimum $\gamma$-power divergence method in the context of dynamic treatment
regimes.
- Abstract(参考訳): 本稿では,動的治療履歴に着目した強化学習への情報幾何学の新しい応用を提案する。
強化学習の標準的な枠組みでは、Q-関数は与えられた報酬の条件付き期待と単一段階の状況に対する行動として定義される。
全てのQ-函数の空間において、ポリシー同値と呼ばれる同値関係を導入する。
情報分散のクラスは、各ステージのQ-函数空間で定義される。
主目的は,トラジェクタのデータセットに基づく最小情報発散の手法により,最適政策関数の推定子を提案することである。
特に、政策等価Q-函数間の$\gamma$-power divergenceがなくなるような有利な性質を持つことを示す$\gamma$-power divergenceについて論じる。
この性質は、Q-函数の半パラメトリックモデルの枠組みで議論される最適ポリシーを求めるために本質的に機能する。
パワーインデックス $\gamma$ の特定の選択は、値関数とq-函数の幾何学的および調和的手段の興味深い関係を与える。
数値実験により、動的処理系における最小$\gamma$-power divergence法の性能を示す。
関連論文リスト
- Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - ReTaSA: A Nonparametric Functional Estimation Approach for Addressing
Continuous Target Shift [3.0502510635373046]
この研究は回帰設定における目標シフト問題に焦点を当てる。
本研究では, 積分方程式から重み関数を推定することにより, 連続目標シフト問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:47:36Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Asymptotic Inference for Multi-Stage Stationary Treatment Policy with
High Dimensional Features [5.240423125851519]
多段階定常処理ポリシでは、同じ決定関数をステージ上で使用して、治療代行確率を規定する。
本稿では,値関数に対する逆確率重み付き推定器を拡張して評価する。
次に、政策推定器の一段階の改善を構築する。
論文 参考訳(メタデータ) (2023-01-29T22:00:53Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。