論文の概要: Clustered KL-barycenter design for policy evaluation
- arxiv url: http://arxiv.org/abs/2503.02735v1
- Date: Tue, 04 Mar 2025 15:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:14.704247
- Title: Clustered KL-barycenter design for policy evaluation
- Title(参考訳): 政策評価のためのクラスタ化KL-barycenter設計
- Authors: Simon Weissmann, Till Freihaut, Claire Vernade, Giorgia Ramponi, Leif Döring,
- Abstract要約: 本稿では,多目的政策の重要サンプリング評価のために,サンプル効率のよい行動ポリシーを設計する方法について検討する。
まず、ターゲットポリシーのKL-barycenterとして定義された単一の行動ポリシーを分析する。
目的とするポリシを小さなKL発散したグループにクラスタ化して,各クラスタに独自のKL-barycenterを動作ポリシとして割り当てることで,このアプローチを洗練する。
- 参考スコア(独自算出の注目度): 10.515033189860171
- License:
- Abstract: In the context of stochastic bandit models, this article examines how to design sample-efficient behavior policies for the importance sampling evaluation of multiple target policies. From importance sampling theory, it is well established that sample efficiency is highly sensitive to the KL divergence between the target and importance sampling distributions. We first analyze a single behavior policy defined as the KL-barycenter of the target policies. Then, we refine this approach by clustering the target policies into groups with small KL divergences and assigning each cluster its own KL-barycenter as a behavior policy. This clustered KL-based policy evaluation (CKL-PE) algorithm provides a novel perspective on optimal policy selection. We prove upper bounds on the sample complexity of our method and demonstrate its effectiveness with numerical validation.
- Abstract(参考訳): 本稿では,確率的バンディットモデルにおいて,複数のターゲットポリシーの重要サンプリング評価のために,サンプル効率のよい行動ポリシーを設計する方法について検討する。
重要サンプリング理論から, 試料効率は, ターゲットと重要サンプリング分布のKL分散に非常に敏感であることがよく確認されている。
まず、ターゲットポリシーのKL-barycenterとして定義された単一の行動ポリシーを分析する。
そこで,本手法では,ターゲットポリシを小さなKL分岐を持つグループにクラスタ化し,各クラスタに独自のKL-barycenterを動作ポリシとして割り当てることにより,このアプローチを洗練する。
このクラスタ化されたKLベースのポリシー評価(CKL-PE)アルゴリズムは、最適なポリシー選択に関する新しい視点を提供する。
本研究では,本手法のサンプル複雑性の上限を証明し,数値検証による有効性を示す。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Efficient Multi-Policy Evaluation for Reinforcement Learning [16.7091722884524]
対象とするすべてのポリシーにおける推定器のばらつきを低減するために、調整された行動ポリシーを設計する。
推定器は, 従来の最適手法に比べて, かなり低いばらつきを有することを示す。
論文 参考訳(メタデータ) (2024-08-16T12:33:40Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits [31.571978291138866]
本稿では,オフライン政策評価の信頼性を高めるための分散ロバストな手法を提案する。
本手法は, 状況と政策分布の両面での相違点が存在する場合に, 堅牢な政策評価結果を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-21T00:42:06Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - ReVar: Strengthening Policy Evaluation via Reduced Variance Sampling [10.925914554822343]
我々は木構造MDPのクラス内で最適なデータ収集の理論を開発する。
我々はReVarがオラクル戦略に匹敵する平均二乗誤差で政策評価につながることを実証的に検証した。
論文 参考訳(メタデータ) (2022-03-09T03:41:15Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。