論文の概要: Minimum information divergence of Q-functions for dynamic treatment
resumes
- arxiv url: http://arxiv.org/abs/2211.08741v1
- Date: Wed, 16 Nov 2022 08:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:17:42.385504
- Title: Minimum information divergence of Q-functions for dynamic treatment
resumes
- Title(参考訳): 動的治療再開のためのq関数の最小情報発散
- Authors: Shinto Eguchi
- Abstract要約: 我々は、すべてのQ-函数の空間において、ポリシー同値と呼ばれる同値関係を導入する。
情報分散のクラスは、各ステージのQ-函数空間で定義される。
数値実験により, 動的処理系における最小$gamma$-power divergence法の性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims at presenting a new application of information geometry to
reinforcement learning focusing on dynamic treatment resumes. In a standard
framework of reinforcement learning, a Q-function is defined as the conditional
expectation of a reward given a state and an action for a single-stage
situation. We introduce an equivalence relation, called the policy equivalence,
in the space of all the Q-functions. A class of information divergence is
defined in the Q-function space for every stage. The main objective is to
propose an estimator of the optimal policy function by a method of minimum
information divergence based on a dataset of trajectories. In particular, we
discuss the $\gamma$-power divergence that is shown to have an advantageous
property such that the $\gamma$-power divergence between policy-equivalent
Q-functions vanishes. This property essentially works to seek the optimal
policy, which is discussed in a framework of a semiparametric model for the
Q-function. The specific choices of power index $\gamma$ give interesting
relationships of the value function, and the geometric and harmonic means of
the Q-function. A numerical experiment demonstrates the performance of the
minimum $\gamma$-power divergence method in the context of dynamic treatment
regimes.
- Abstract(参考訳): 本稿では,動的治療履歴に着目した強化学習への情報幾何学の新しい応用を提案する。
強化学習の標準的な枠組みでは、Q-関数は与えられた報酬の条件付き期待と単一段階の状況に対する行動として定義される。
全てのQ-函数の空間において、ポリシー同値と呼ばれる同値関係を導入する。
情報分散のクラスは、各ステージのQ-函数空間で定義される。
主目的は,トラジェクタのデータセットに基づく最小情報発散の手法により,最適政策関数の推定子を提案することである。
特に、政策等価Q-函数間の$\gamma$-power divergenceがなくなるような有利な性質を持つことを示す$\gamma$-power divergenceについて論じる。
この性質は、Q-函数の半パラメトリックモデルの枠組みで議論される最適ポリシーを求めるために本質的に機能する。
パワーインデックス $\gamma$ の特定の選択は、値関数とq-函数の幾何学的および調和的手段の興味深い関係を与える。
数値実験により、動的処理系における最小$\gamma$-power divergence法の性能を示す。
関連論文リスト
- Suboptimal Shapley Value Explanations [3.0872915940839274]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションをサポートする上で強力な能力を示している。
共有価値は、DNNの推論プロセスを理解するのに役立つ機能の重要性を分析する重要なツールとして登場した。
本稿では,計算処理を高速化する簡易な不確実性に基づく再重み付け機構を提案する。
論文 参考訳(メタデータ) (2025-02-17T01:17:12Z) - Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference [33.14076284663493]
時間不変マルコフ決定過程(MDPs)における$Q$関数の線形汎関数の効率的な推論について検討する。
これらの制限は重なり合う要求を減らし、効率のバウンドを下げ、より正確な見積もりをもたらす。
特殊ケースとして, 等速適応適応型$Q$-iteration(MDPの新しいキャリブレーションアルゴリズム)を用いた適応型デバイアスドプラグイン推定法を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection [13.202945240520986]
動的治療体制またはポリシーは、個々の特徴に合わせた複数の段階にわたる決定機能の連続である。
実際の治療方針の1つの重要なクラス、すなわち多段階定常治療政策は、複数の段階にわたって同じ決定関数を用いて治療課題を規定する。
動的治療ポリシーに関連する値関数に対する有効な推論を構築することについては、広範な文献があるが、ポリシー自体に焦点をあてる研究はほとんどない。
論文 参考訳(メタデータ) (2023-01-29T22:00:53Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。