論文の概要: Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities
- arxiv url: http://arxiv.org/abs/2605.29500v1
- Date: Thu, 28 May 2026 07:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.944188
- Title: Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities
- Title(参考訳): オフポリシィ評価のためのクオリティDAG:前向きフロー重要度サンプリングと有効スレート値
- Authors: Ziwen Xie, Shaowen Xiang, Hongyu He, Dianbo Liu,
- Abstract要約: オフ政治評価は、異なる行動ポリシーによって収集されたデータを使用して、ターゲットポリシーがどのように実行されるかを推定する。
標準重要サンプリングは、ログされた軌跡ごとに重み付けを行うが、評価対象が無視した場合でも、生成プロセスの詳細を意味のあるものとして扱うことができる。
本稿では,評価に等価な履歴をマージし,目標-行動-前-フロー比を用いて重みを割り当てる商DAGビューを提案する。
- 参考スコア(独自算出の注目度): 4.751925814658969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation estimates how a target policy would perform using data collected by a different behavior policy, which is crucial when online testing is costly or risky, such as in recommendation or healthcare. Standard importance sampling reweights each logged trajectory, but it can treat details of the generation process as meaningful even when the evaluation target ignores them: for example, an autoregressive slate recommender may generate an ordered sequence of items while the reward and downstream estimator depend only on the unordered slate. This creates nuisance variance and a computational gap, since exact unordered slate propensities require summing over all generation orders. We introduce a quotient-DAG view that merges histories equivalent for evaluation and assigns weights using target-to-behavior forward-flow ratios on the merged graph. For slate recommendation under a set-sufficient next-item interface, this yields Forward-DP, a subset-DAG dynamic program that computes exact unordered propensities without factorial enumeration. The resulting propensity primitive enables practical propensity-based evaluation and model selection for context-dependent autoregressive slate loggers.
- Abstract(参考訳): オフ政治評価は、異なる行動ポリシーによって収集されたデータを使ってターゲットポリシーがどのように実行されるかを推定する。
標準重要サンプリングは、ログされた軌跡ごとに重み付けを行うが、評価対象がそれらを無視した場合でも、生成プロセスの詳細を意味のあるものとして扱うことができる。
これは、厳密な非順序のスレート確率がすべての生成順序を和らげる必要があるため、ニュアンス分散と計算ギャップを生み出す。
本稿では,評価に等価なヒストリーをマージする商DAGビューを導入し,そのマージグラフ上での目標-行動-前-フロー比を用いて重みを割り当てる。
設定に十分なnext-itemインタフェース下でのslateレコメンデーションのために、Forward-DPは、係数列挙なしで正確に順序付けされた不整合を計算するサブセットDAG動的プログラムである。
結果の妥当性プリミティブにより,コンテキスト依存型自己回帰スレートロガーの実用的妥当性に基づく評価とモデル選択が可能となる。
関連論文リスト
- RAGR: Review-Augmented Generative Recommendation [61.29879991713178]
Review-Augmented Generative Recommendation (RAGR)は、レビューフィードバックを直接生成ユーザシーケンスに組み込む新しいGRフレームワークである。
RAGRは、すべてのメトリクスにわたる強力なGRバックボーンよりも一貫性があり、大きな利益をもたらす。
論文 参考訳(メタデータ) (2026-05-17T05:21:23Z) - What If We Allocate Test-Time Compute Adaptively? [2.1713977971908944]
テストタイムスケーリングは、推論計算を均一に割り当て、固定されたサンプリング戦略を使用し、再ランク付けにのみ検証を適用する。
本稿では,推論を反復的軌跡生成と選択として扱う検証器誘導適応フレームワークを提案する。
データセット全体にわたって、当社の動的PRMガイダンスアプローチは、テスト時間の直接スケーリングよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-01T07:30:22Z) - Adaptive Sample Sharing for Linear Regression [1.8898307337832196]
隆起回帰における試料共有について検討した。
我々は、ターゲットのトレーニングセットに追加する補助データセットのサンプル数を決定する、原則付きデータ駆動ルールを導入する。
合成および実データセットのアプローチを検証し、強いベースラインと単一タスクのトレーニングよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2025-10-19T20:03:48Z) - Aligning the Evaluation of Probabilistic Predictions with Downstream Value [2.6636053598505307]
予測性能のみに基づくメトリクスは、しばしば現実世界の下流への影響の尺度から発散する。
本稿では、下流評価と整合したプロキシ評価関数を学習するためのデータ駆動手法を提案する。
我々のアプローチでは、ニューラルネットワークによってパラメータ化された重み付けされたスコアリングルールを利用して、下流タスクのパフォーマンスに合わせて重み付けが学習される。
論文 参考訳(メタデータ) (2025-08-25T17:41:27Z) - Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Post Reinforcement Learning Inference [20.521169740409263]
強化学習アルゴリズムによって収集されたデータを用いて推定と推定を行う。
この分散を安定化させるために適応重みを用いる重み付き一般化モーメント法(GMM)を提案する。
主な用途は、動的処理効果の推定と動的オフポリシー評価である。
論文 参考訳(メタデータ) (2023-02-17T12:53:15Z) - Sequential Recommendation via Stochastic Self-Attention [68.52192964559829]
Transformerベースのアプローチでは、アイテムをベクトルとして埋め込んで、ドット積の自己アテンションを使用してアイテム間の関係を測定する。
本稿では,これらの問題を克服するための新しいtextbfStochastic textbfSelf-textbfAttention (STOSA) を提案する。
我々は、アイテムと項目の位置関係を列で特徴づける新しいワッサースタイン自己保持モジュールを考案した。
論文 参考訳(メタデータ) (2022-01-16T12:38:45Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Comment: Entropy Learning for Dynamic Treatment Regimes [58.442274475425144]
JSLZのアプローチは、逆確率(IPW)に基づく与えられた決定規則の値の拒絶とサンプリングの見積もりと、その解釈を重み付けされた(またはコストに敏感な)分類として利用する。
彼らのスムーズな分類サロゲートの使用は、分布の分析に慎重なアプローチを可能にする。
IPWの推定は、ほとんどのデータを捨てる重みにつながり、残余については非常に変動しているため、問題となる。
論文 参考訳(メタデータ) (2020-04-06T16:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。