論文の概要: Uncertainty Sets for Distributionally Robust Bandits Using Structural Equation Models
- arxiv url: http://arxiv.org/abs/2508.02812v1
- Date: Mon, 04 Aug 2025 18:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.638027
- Title: Uncertainty Sets for Distributionally Robust Bandits Using Structural Equation Models
- Title(参考訳): 構造方程式モデルを用いた分布ロバスト帯域の不確かさ集合
- Authors: Katherine Avery, Chinmay Pendse, David Jensen,
- Abstract要約: 分散的に堅牢な評価と学習のための現在の手法は、過度に保守的な評価と政策を生み出している。
本研究では,特定の問題に対する不確実性を考慮したバンドレート評価と学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributionally robust evaluation estimates the worst-case expected return over an uncertainty set of possible covariate and reward distributions, and distributionally robust learning finds a policy that maximizes that worst-case return across that uncertainty set. Unfortunately, current methods for distributionally robust evaluation and learning create overly conservative evaluations and policies. In this work, we propose a practical bandit evaluation and learning algorithm that tailors the uncertainty set to specific problems using mathematical programs constrained by structural equation models. Further, we show how conditional independence testing can be used to detect shifted variables for modeling. We find that the structural equation model (SEM) approach gives more accurate evaluations and learns lower-variance policies than traditional approaches, particularly for large shifts. Further, the SEM approach learns an optimal policy, assuming the model is sufficiently well-specified.
- Abstract(参考訳): 分布的ロバストな評価は、可能な共変量および報酬分布の不確実性セットに対する最悪のケース予測リターンを推定し、分布的ロバストな学習は、その不確実性セットにおける最悪のケースリターンを最大化するポリシーを見つける。
残念ながら、分布的に堅牢な評価と学習のための現在の手法は、過度に保守的な評価と政策を生み出している。
本研究では,構造方程式モデルに制約された数学的プログラムを用いて,不確実性セットを特定の問題に合わせるための実践的帯域評価と学習アルゴリズムを提案する。
さらに, 条件付き独立性テストを用いて, モデル変数のシフトを検出する方法を示す。
構造方程式モデル (SEM) のアプローチは, 従来のアプローチ, 特に大きなシフトに対して, より正確な評価を行い, 低分散ポリシーを学習する。
さらに、SEMアプローチはモデルが十分に適切に特定されていると仮定して、最適なポリシーを学習する。
関連論文リスト
- A Robust Model-Based Approach for Continuous-Time Policy Evaluation with Unknown Lévy Process Dynamics [1.0923877073891446]
本稿では,継続的政策評価のためのモデルベースフレームワークを開発する。
ブラウンとレヴィのノイズを組み込んで、稀な出来事や極端な出来事の影響を受けやすい力学をモデル化する。
論文 参考訳(メタデータ) (2025-04-02T08:37:14Z) - Rethinking Robustness in Machine Learning: A Posterior Agreement Approach [45.284633306624634]
モデル検証の後方合意(PA)理論は、ロバストネス評価のための原則的な枠組みを提供する。
本稿では,PA尺度が学習アルゴリズムの脆弱性を,ほとんど観測されていない場合でも,合理的かつ一貫した分析を提供することを示す。
論文 参考訳(メタデータ) (2025-03-20T16:03:39Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Optimal Learning via Moderate Deviations Theory [3.9725974446759342]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。
提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文 参考訳(メタデータ) (2023-05-23T19:57:57Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。