論文の概要: CASP: Support-Aware Offline Policy Selection for Two-Stage Recommender Systems
- arxiv url: http://arxiv.org/abs/2604.23022v1
- Date: Fri, 24 Apr 2026 21:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.105211
- Title: CASP: Support-Aware Offline Policy Selection for Two-Stage Recommender Systems
- Title(参考訳): CASP: 2段階のレコメンダシステムのためのオフラインポリシー選択支援
- Authors: Nilson Chapagain,
- Abstract要約: CASP(Coupled Action-Set Pessimism)は,2段階の推奨ポリシーを持つ有限ライブラリを対象としたオフラインセレクタである。
下流の継続値を無視する段階的なルールは任意に最適であり, 集団, 有限クラス, 保守的選択のための再構成された正当性保証を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-stage recommender systems first choose a candidate generator and then rank items within the generated set. Because the generator decides which items are available to the ranker, changing the generator changes both the policy value and the data support used to estimate that value. This creates an offline selection problem that standard single-stage objectives do not capture: a policy may look good under a retrieval score or a raw off-policy value estimate, but still be unreliable if it depends on weakly supported generator-item pairs. We propose CASP (Coupled Action-Set Pessimism), a support-aware offline selector for finite libraries of two-stage recommender policies. CASP combines doubly robust value estimation with a support-burden penalty. We show that stagewise rules that ignore downstream continuation value can be arbitrarily suboptimal, and we derive population, finite-class, and reconstructed-propensity guarantees for conservative selection. In simulations and a reconstructed MovieLens 1M application, CASP selects lower-burden policies when estimated value and support credibility are in tension.
- Abstract(参考訳): 2段階のレコメンデータシステムはまず候補ジェネレータを選択し、生成したセット内のアイテムをランク付けする。
ジェネレータがローダに利用可能なアイテムを決定するため、ジェネレータを変更するとポリシー値とデータサポートの両方が変更され、その値が見積もられる。
これは、標準的な単一段階の目的が捉えないオフライン選択問題を生み出す: ポリシーは、検索スコアや生のオフポリシー値の見積の下では良く見えるが、弱いサポートされたジェネレータとイタムのペアに依存する場合、依然として信頼できない。
CASP(Coupled Action-Set Pessimism)は,2段階の推奨ポリシーを持つ有限ライブラリを対象としたオフラインセレクタである。
CASPは2倍の堅牢な値推定とサポートバーデンペナルティを組み合わせたものだ。
下流の継続値を無視する段階的なルールは任意に最適であり, 集団, 有限クラス, 保守的選択のための再構成された正当性保証を導出する。
シミュレーションと再構成されたMovieLens 1Mアプリケーションでは、推定値とサポート信頼性が緊張している場合、CASPは低いバーデンポリシーを選択する。
関連論文リスト
- Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization [4.154714580436713]
本稿では,まず実行可能な候補ポリシーのライブラリを構築し,次に最適なポリシーを選択するためのメタ政治を学習するモジュラーフレームワークを提案する。
我々は、トレーニングセット上でクロスバリデーションによってトレーニングされた最適ポリシーツリーのアンサンブルを使用して、メタポリティクスを実装し、ポリシーの選択を完全にデータ駆動にする。
結果を再現するコードはすべてhttps://anonymous.4open.science/r/Prescribe-then-Select-TMLRにある。
論文 参考訳(メタデータ) (2025-09-09T23:56:16Z) - Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。
このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。
我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-11T09:18:34Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target [56.99669411766284]
自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
論文 参考訳(メタデータ) (2022-11-29T18:41:20Z) - Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T18:49:33Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。