論文の概要: Improving Offline Contextual Bandits with Distributional Robustness
- arxiv url: http://arxiv.org/abs/2011.06835v1
- Date: Fri, 13 Nov 2020 09:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:18:48.630671
- Title: Improving Offline Contextual Bandits with Distributional Robustness
- Title(参考訳): 分布ロバスト性を考慮したオフラインコンテキスト帯域の改善
- Authors: Otmane Sakhi, Louis Faury, Flavian Vasile
- Abstract要約: 我々は, 対人的リスク最小化原則の凸修正を導入する。
我々のアプローチは凸プログラムと互換性があり、従って大規模なデータ構造に容易に適応できる。
提案手法の有効性を裏付ける予備実験結果を示す。
- 参考スコア(独自算出の注目度): 10.310819665706294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper extends the Distributionally Robust Optimization (DRO) approach
for offline contextual bandits. Specifically, we leverage this framework to
introduce a convex reformulation of the Counterfactual Risk Minimization
principle. Besides relying on convex programs, our approach is compatible with
stochastic optimization, and can therefore be readily adapted tothe large data
regime. Our approach relies on the construction of asymptotic confidence
intervals for offline contextual bandits through the DRO framework. By
leveraging known asymptotic results of robust estimators, we also show how to
automatically calibrate such confidence intervals, which in turn removes the
burden of hyper-parameter selection for policy optimization. We present
preliminary empirical results supporting the effectiveness of our approach.
- Abstract(参考訳): 本稿では、オフラインコンテキストの帯域幅に対する分散ロバスト最適化(DRO)アプローチを拡張する。
具体的には、この枠組みを利用して、対実的リスク最小化原則の凸改革を導入する。
凸プログラムに依存することに加えて,この手法は確率最適化と互換性があり,大規模データレジームに容易に適用できる。
我々のアプローチは、DROフレームワークによるオフラインコンテキストの帯域に対する漸近的信頼区間の構築に依存している。
また、ロバストな推定器の漸近的な結果を利用して、そのような信頼区間を自動的に調整する方法を示し、それによって政策最適化におけるハイパーパラメータ選択の負担を解消する。
本手法の有効性を裏付ける予備的な実験結果を示す。
関連論文リスト
- Distributionally and Adversarially Robust Logistic Regression via Intersecting Wasserstein Balls [8.720733751119994]
逆堅牢最適化(Adversarially robust optimization, ARO)は、テスト中に敵の攻撃に対して防御する訓練モデルのデファクトスタンダードとなっている。
その頑丈さにもかかわらず、これらのモデルはしばしば過度なオーバーフィットに悩まされる。
学習における経験的分布を, (i) あいまいさ集合内の最悪のケース分布, (ii) 補助的データセットから派生した経験的分布の混合に置き換える2つの方法を提案する。
論文 参考訳(メタデータ) (2024-07-18T15:59:37Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。
DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。
学習性能を向上させるために,トランスフォーマーとブロードスファーストサーチを併用した。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Federated Distributionally Robust Optimization for Phase Configuration
of RISs [106.4688072667105]
我々は、教師付き学習環境において、多種多様なRISタイプ上での堅牢な再構成可能なインテリジェントサーフェス(RIS)支援ダウンリンク通信の問題について検討する。
異種RIS設計上のダウンリンク通信を分散的に位相構成を最適化する方法を学ぶ異なる労働者としてモデル化することにより、分散学習問題を解決することができる。
提案アルゴリズムは, 競合するベースラインと比較して, 最悪の分布精度を実現するために, 通信ラウンドを少なくする必要がある。
論文 参考訳(メタデータ) (2021-08-20T07:07:45Z) - RAPTOR: End-to-end Risk-Aware MDP Planning and Policy Learning by
Backpropagation [12.600828753197204]
PyTorch (RAP) を用いたリスクアウェアプランニング(リスクアウェアプランニング)を導入する。
本研究では, 非線形ナビゲーション, HVAC制御, 線形貯水池制御を含む3つの高次要素について, これら2種類のRAPTORを評価し, 比較した。
論文 参考訳(メタデータ) (2021-06-14T09:27:19Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。