Fugu-MT 論文翻訳(概要): Minimum information divergence of Q-functions for dynamic treatment resumes

論文の概要: Minimum information divergence of Q-functions for dynamic treatment resumes

arxiv url: http://arxiv.org/abs/2211.08741v1
Date: Wed, 16 Nov 2022 08:02:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 16:17:42.385504
Title: Minimum information divergence of Q-functions for dynamic treatment resumes
Title（参考訳）: 動的治療再開のためのq関数の最小情報発散
Authors: Shinto Eguchi
Abstract要約: 我々は、すべてのQ-函数の空間において、ポリシー同値と呼ばれる同値関係を導入する。情報分散のクラスは、各ステージのQ-函数空間で定義される。数値実験により, 動的処理系における最小$gamma$-power divergence法の性能を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims at presenting a new application of information geometry to reinforcement learning focusing on dynamic treatment resumes. In a standard framework of reinforcement learning, a Q-function is defined as the conditional expectation of a reward given a state and an action for a single-stage situation. We introduce an equivalence relation, called the policy equivalence, in the space of all the Q-functions. A class of information divergence is defined in the Q-function space for every stage. The main objective is to propose an estimator of the optimal policy function by a method of minimum information divergence based on a dataset of trajectories. In particular, we discuss the $\gamma$-power divergence that is shown to have an advantageous property such that the $\gamma$-power divergence between policy-equivalent Q-functions vanishes. This property essentially works to seek the optimal policy, which is discussed in a framework of a semiparametric model for the Q-function. The specific choices of power index $\gamma$ give interesting relationships of the value function, and the geometric and harmonic means of the Q-function. A numerical experiment demonstrates the performance of the minimum $\gamma$-power divergence method in the context of dynamic treatment regimes.
Abstract（参考訳）: 本稿では,動的治療履歴に着目した強化学習への情報幾何学の新しい応用を提案する。強化学習の標準的な枠組みでは、Q-関数は与えられた報酬の条件付き期待と単一段階の状況に対する行動として定義される。全てのQ-函数の空間において、ポリシー同値と呼ばれる同値関係を導入する。情報分散のクラスは、各ステージのQ-函数空間で定義される。主目的は,トラジェクタのデータセットに基づく最小情報発散の手法により,最適政策関数の推定子を提案することである。特に、政策等価Q-函数間の$\gamma$-power divergenceがなくなるような有利な性質を持つことを示す$\gamma$-power divergenceについて論じる。この性質は、Q-函数の半パラメトリックモデルの枠組みで議論される最適ポリシーを求めるために本質的に機能する。パワーインデックス $\gamma$ の特定の選択は、値関数とq-函数の幾何学的および調和的手段の興味深い関係を与える。数値実験により、動的処理系における最小$\gamma$-power divergence法の性能を示す。

関連論文リスト

Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文参考訳（メタデータ） (2025-04-30T05:26:51Z)
Reward Adaptation Via Q-Manipulation [3.8065968624597324]
本稿では、学習エージェントが1つまたは複数の既存行動に基づいて目標報酬関数に適応する問題である報酬適応(RA)に対する新しい解決策を提案する。我々の研究は、Q-関数の操作によるRAに対する新しいアプローチを表している。 Q-Manipulation (Q-M) と呼ばれる手法について述べる。
論文参考訳（メタデータ） (2025-03-17T17:42:54Z)
Suboptimal Shapley Value Explanations [3.0872915940839274]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションをサポートする上で強力な能力を示している。共有価値は、DNNの推論プロセスを理解するのに役立つ機能の重要性を分析する重要なツールとして登場した。本稿では,計算処理を高速化する簡易な不確実性に基づく再重み付け機構を提案する。
論文参考訳（メタデータ） (2025-02-17T01:17:12Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Statistical Inference of Optimal Allocations I: Regularities and their Implications [5.911223351920214]
ソート演算子の特性を解析することにより,値関数のアダマール微分性を導出する。アダマール微分可能性の結果に基づいて,関数デルタ法を適用して値関数過程の特性を求める。値関数に対する二重/脱バイアス推定器を提案する。
論文参考訳（メタデータ） (2024-03-27T04:39:13Z)
ReTaSA: A Nonparametric Functional Estimation Approach for Addressing Continuous Target Shift [3.0502510635373046]
この研究は回帰設定における目標シフト問題に焦点を当てる。本研究では, 積分方程式から重み関数を推定することにより, 連続目標シフト問題に対処可能であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:47:36Z)
Online non-parametric likelihood-ratio estimation by Pearson-divergence functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文参考訳（メタデータ） (2023-11-03T13:20:11Z)
QFree: A Universal Value Function Factorization for Multi-Agent Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-11-01T08:07:16Z)
Approximation and Generalization Capacities of Parametrized Quantum Circuits for Functions in Sobolev Spaces [1.1999555634662633]
パラメタライズド量子回路(パラメタライズド量子回路、PQC)は、固定ゲートとパラメタライズドゲートの両方からなる量子回路である。 PQCs は連続函数の空間、$p$可積分函数、および$Hk$ソボレフ空間を特定の距離で近似できることを示す。
論文参考訳（メタデータ） (2023-07-27T11:43:08Z)
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。ソフトマージン条件下でのバニラQ関数の類似した結果を示す。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文参考訳（メタデータ） (2023-02-05T14:22:41Z)
Asymptotic Inference for Multi-Stage Stationary Treatment Policy with High Dimensional Features [5.240423125851519]
多段階定常処理ポリシでは、同じ決定関数をステージ上で使用して、治療代行確率を規定する。本稿では,値関数に対する逆確率重み付き推定器を拡張して評価する。次に、政策推定器の一段階の改善を構築する。
論文参考訳（メタデータ） (2023-01-29T22:00:53Z)
A New Representation of Successor Features for Transfer across Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文参考訳（メタデータ） (2021-07-18T12:37:05Z)
Instance-optimality in optimal value estimation: Adaptivity via variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文参考訳（メタデータ） (2021-06-28T00:38:54Z)
Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文参考訳（メタデータ） (2021-06-22T17:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。