論文の概要: Sequential Counterfactual Risk Minimization
- arxiv url: http://arxiv.org/abs/2302.12120v2
- Date: Thu, 25 May 2023 10:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 20:45:49.210718
- Title: Sequential Counterfactual Risk Minimization
- Title(参考訳): 逐次相反リスク最小化
- Authors: Houssam Zenati, Eustache Diemert, Matthieu Martin, Julien Mairal,
Pierre Gaillard
- Abstract要約: 逐次的対人リスク最小化(Sequential Counterfactual Risk Minimization)は、ログ化された帯域フィードバック問題を扱うためのフレームワークである。
本稿では,CRMの性能向上を図り,新しい評価手法を提案する。
- 参考スコア(独自算出の注目度): 37.600857571957754
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Counterfactual Risk Minimization (CRM) is a framework for dealing with the
logged bandit feedback problem, where the goal is to improve a logging policy
using offline data. In this paper, we explore the case where it is possible to
deploy learned policies multiple times and acquire new data. We extend the CRM
principle and its theory to this scenario, which we call "Sequential
Counterfactual Risk Minimization (SCRM)." We introduce a novel counterfactual
estimator and identify conditions that can improve the performance of CRM in
terms of excess risk and regret rates, by using an analysis similar to restart
strategies in accelerated optimization methods. We also provide an empirical
evaluation of our method in both discrete and continuous action settings, and
demonstrate the benefits of multiple deployments of CRM.
- Abstract(参考訳): CRM(Counterfactual Risk Minimization)は、オフラインデータを使用したロギングポリシーの改善を目標とする、ログ化された盗聴フィードバック問題を扱うためのフレームワークである。
本稿では,学習したポリシーを複数回展開し,新たなデータを取得することができるかを検討する。
我々はcrmの原理とその理論をこのシナリオに拡張し、「sequential counterfactual risk minimization (scrm) 」と呼ぶ。
高速化最適化手法における再起動戦略に類似した分析を用いて,CRMの性能を過大なリスクと後悔率の観点から向上させる新しい事実推定手法を提案する。
また、離散的かつ連続的なアクション設定において、我々の手法を実証的に評価し、CRMの複数デプロイの利点を実証する。
関連論文リスト
- Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Frustratingly Easy Model Generalization by Dummy Risk Minimization [38.67678021055096]
ダミーリスク最小化(DuRM)は、経験的リスク最小化(ERM)の一般化を改善するための、フラストレーション的に簡単かつ一般的な技術である。
DuRMは、ほぼ無料のランチ方式で、すべてのタスクにおけるパフォーマンスを継続的に改善できることを示す。
論文 参考訳(メタデータ) (2023-08-04T12:43:54Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - What Is Missing in IRM Training and Evaluation? Challenges and Solutions [41.56612265456626]
環境に依存しないデータ表現と予測を取得する手段として、不変リスク最小化(IRM)が注目されている。
近年の研究では、当初提案されたIRM最適化(IRM)の最適性は、実際は損なわれる可能性があることが判明している。
IRMのトレーニングと評価における3つの実践的限界を特定し,解決する。
論文 参考訳(メタデータ) (2023-03-04T07:06:24Z) - A State-Augmented Approach for Learning Optimal Resource Management
Decisions in Wireless Networks [58.720142291102135]
マルチユーザ無線ネットワークにおける無線リソース管理(RRM)問題について考察する。
目標は、ユーザのエルゴード平均パフォーマンスに制約を受けるネットワーク全体のユーティリティ機能を最適化することである。
本稿では, RRM の制約に対応する2変数の集合を入力として, 瞬時ネットワーク状態と並行して, RRM のパラメータ化を提案する。
論文 参考訳(メタデータ) (2022-10-28T21:24:13Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Counterfactual Learning of Stochastic Policies with Continuous Actions:
from Models to Offline Evaluation [41.21447375318793]
コンテクストとアクションを融合したカーネルを組み込んだモデリング戦略を導入する。
対実学習の最適化の側面が重要であることを実証的に示す。
実世界のログシステムにおけるオフラインポリシーの評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-04-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。