Fugu-MT 論文翻訳(概要): Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions

論文の概要: Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions

arxiv url: http://arxiv.org/abs/2007.12986v2
Date: Mon, 24 Aug 2020 01:34:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 00:50:27.245200
Title: Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions
Title（参考訳）: 逐次報酬相互作用によるスレートレコメンデーションの反事実評価
Authors: James McInerney, Brian Brost, Praveen Chandar, Rishabh Mehrotra, Ben Carterette
Abstract要約: 音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
参考スコア（独自算出の注目度）: 18.90946044396516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Users of music streaming, video streaming, news recommendation, and e-commerce services often engage with content in a sequential manner. Providing and evaluating good sequences of recommendations is therefore a central problem for these services. Prior reweighting-based counterfactual evaluation methods either suffer from high variance or make strong independence assumptions about rewards. We propose a new counterfactual estimator that allows for sequential interactions in the rewards with lower variance in an asymptotically unbiased manner. Our method uses graphical assumptions about the causal relationships of the slate to reweight the rewards in the logging policy in a way that approximates the expected sum of rewards under the target policy. Extensive experiments in simulation and on a live recommender system show that our approach outperforms existing methods in terms of bias and data efficiency for the sequential track recommendations problem.
Abstract（参考訳）: 音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスのユーザーは、連続的にコンテンツを扱うことが多い。したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。事前の重み付けに基づく反実的評価手法は、高い分散に苦しむか、報酬について強い独立性を仮定する。我々は,漸近的に偏りのない方法で,より低い分散で報酬の逐次的相互作用を可能にする新しい反事実推定器を提案する。本手法では,スレートの因果関係に関する図式的仮定を用いて,目標方針の下での報酬の期待値の合計を近似する方法で,ログポリシーにおける報酬の重み付けを行う。シミュレーションおよびライブレコメンデータシステムにおける大規模な実験により,提案手法は逐次トラックレコメンデーション問題に対するバイアスやデータ効率の点で既存手法よりも優れていることが示された。

関連論文リスト

Off-Policy Evaluation and Learning for Matching Markets [15.585641615174623]
オフラインログデータのみを使用してレコメンデーションポリシーの評価を可能にすることで、オフポリシー評価(OPE)が重要な役割を果たす。我々は、マッチング市場向けに特別に設計された新しいOPE推定器、textitDiPS、textitDPRを提案する。本手法は, 直接法(DM), 逆確率スコア(IPS), 二重ロバスト(DR)推定器の要素を組み合わせる。
論文参考訳（メタデータ） (2025-07-18T02:23:37Z)
Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文参考訳（メタデータ） (2025-06-07T17:37:10Z)
Off-Policy Evaluation for Recommendations with Missing-Not-At-Random Rewards [0.0]
アンバイアスド・レコメンダラー・ラーニング(URL)とオフ・ポリティクス・アセスメント・ラーニング(OPE/L)技術は、表示位置とロギングポリシーによって引き起こされるデータのバイアスに対処するのに有効である。しかし、両方のバイアスが記録されたデータから出ると、これらの推定子は重大なバイアスに悩まされる可能性がある。本稿では,ログポリシと報奨観測の2つの確率を確率スコアとして活用する新しい推定器を提案する。
論文参考訳（メタデータ） (2025-02-13T06:11:29Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-09T04:20:15Z)
Measuring Recency Bias In Sequential Recommendation Systems [4.797371814812293]
シーケンシャルレコメンデーションシステムにおける頻度バイアス(Recency bias)とは、ユーザセッション内の最近の項目に過度に重きを置くことを指す。このバイアスは、レコメンデーションのセレンディピティーを低下させ、システムの長期的関心を捉える能力を妨げます。本論文は,リレーレンシバイアスの定量化に特化して設計された,単純かつ効果的な新しい計量法を提案する。
論文参考訳（メタデータ） (2024-09-15T13:02:50Z)
CSRec: Rethinking Sequential Recommendation from A Causal Perspective [25.69446083970207]
シーケンシャルなレコメンデータシステム(RecSys)の本質は、ユーザが意思決定を行う方法を理解することです。我々は、CSRec(Causal Sequential Recommendation)と呼ばれる、シーケンシャルレコメンデーションの新しい定式化を提案する。 CSRecは、シーケンシャルなコンテキスト内で推奨項目が受け入れられる確率を予測し、現在の決定がどのようになされるかをバックトラックすることを目的としている。
論文参考訳（メタデータ） (2024-08-23T23:19:14Z)
Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。因果的観点からRSを定式化し、二元的介入として勧告を定式化する。提案手法では,結果の一致を最大化する手法を提案する。
論文参考訳（メタデータ） (2024-08-19T07:21:02Z)
Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach [13.208141830901845]
標準差分推定器は、推奨者干渉による偏差推定を導出できることを示す。本稿では,処理項目と制御項目の両方を含むプールからどのアイテムが露出するかを記述した「レコメンダ選択モデル」を提案する。提案した推定器はベンチマークに匹敵する結果が得られるのに対し,標準差分推定器は有意なバイアスを示し,また逆の兆候も生み出すことを示す。
論文参考訳（メタデータ） (2024-06-20T14:53:26Z)
Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文参考訳（メタデータ） (2023-03-11T11:42:26Z)
Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文参考訳（メタデータ） (2022-10-15T17:22:30Z)
Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。 CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文参考訳（メタデータ） (2022-10-13T04:26:06Z)
Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文参考訳（メタデータ） (2022-07-04T17:58:39Z)
Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文参考訳（メタデータ） (2021-09-13T15:02:55Z)
Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior Policies [3.855085732184416]
オフ政治評価は、行動ポリシーから収集されたオフラインデータを用いて目標ポリシーを評価する強化学習の鍵となる要素である。本稿では,異なる行動ポリシーによって生成された推定器を正しく混合する方法について論じる。シミュレーションリコメンデータシステムの実験から,提案手法は推定平均二乗誤差を低減するのに有効であることが示された。
論文参考訳（メタデータ） (2020-11-29T12:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。