Fugu-MT 論文翻訳(概要): Local Policy Improvement for Recommender Systems

論文の概要: Local Policy Improvement for Recommender Systems

arxiv url: http://arxiv.org/abs/2212.11431v2
Date: Wed, 26 Apr 2023 22:49:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 16:56:32.562536
Title: Local Policy Improvement for Recommender Systems
Title（参考訳）: レコメンダシステムのための地域政策改善
Authors: Dawen Liang, Nikos Vlassis
Abstract要約: 我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
参考スコア（独自算出の注目度）: 8.617221361305901
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recommender systems predict what items a user will interact with next, based on their past interactions. The problem is often approached through supervised learning, but recent advancements have shifted towards policy optimization of rewards (e.g., user engagement). One challenge with the latter is policy mismatch: we are only able to train a new policy given data collected from a previously-deployed policy. The conventional way to address this problem is through importance sampling correction, but this comes with practical limitations. We suggest an alternative approach of local policy improvement without off-policy correction. Our method computes and optimizes a lower bound of expected reward of the target policy, which is easy to estimate from data and does not involve density ratios (such as those appearing in importance sampling correction). This local policy improvement paradigm is ideal for recommender systems, as previous policies are typically of decent quality and policies are updated frequently. We provide empirical evidence and practical recipes for applying our technique in a sequential recommendation setting.
Abstract（参考訳）: 推薦システムは、過去のインタラクションに基づいて、ユーザが次に対話するアイテムを予測する。問題はしばしば教師付き学習によって解決されるが、近年の進歩は報酬(例えばユーザエンゲージメント)の政策最適化へと移行している。後者の課題のひとつは、以前デプロイされたポリシーから収集されたデータによってのみ、新しいポリシーをトレーニングできることです。この問題に対処する従来の方法は、重要サンプリング補正によるものであるが、実用的な制限が伴っている。地方政策改善の代替策として、非政治的修正を伴わないアプローチを提案する。提案手法は,データから推定し易く,密度比(重要サンプリング補正に現れるものなど)を含まない,目標ポリシの期待値の低い領域を計算し,最適化する。この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。本手法を逐次レコメンデーション環境で適用するための実証的証拠と実践的レシピを提供する。

関連論文リスト

Offline Policy Learning with Weight Clipping and Heaviside Composite Optimization [6.133885868970599]
オフラインポリシー学習は、歴史的データを使用して、最適なパーソナライズされた決定ルールを学ぶことを目的としています。そこで我々は,小確率のスコアをトラストするウェイトクリッピング推定器に基づくオフラインポリシー学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2026-01-17T17:35:00Z)
Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning [52.97053840476386]
我々は、よく設計された行動ポリシーを用いて、分散リターン推定を確実に低くするために、政治外のデータを収集できることを示します。我々は、この重要な洞察を、政策評価と改善の両方がインターリーブされるオンライン強化学習環境に拡張する。
論文参考訳（メタデータ） (2025-11-13T23:06:40Z)
Beating the Winner's Curse via Inference-Aware Policy Optimization [26.01488014918074]
一般的なアプローチは、機械学習モデルをトレーニングして反現実的な結果を予測し、予測された客観的価値を最適化するポリシーを選択することである。提案手法は,政策を下流でどのように評価するかを考慮し,政策最適化を改良する,推論対応政策最適化と呼ばれる新しい戦略を提案する。
論文参考訳（メタデータ） (2025-10-20T23:28:12Z)
Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文参考訳（メタデータ） (2025-07-28T03:45:34Z)
EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。提案手法は, 従来手法に比べて試料効率を最大2～3倍向上させる。
論文参考訳（メタデータ） (2025-07-10T17:57:46Z)
Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2024-09-09T13:56:03Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
IOB: Integrating Optimization Transfer and Behavior Transfer for Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文参考訳（メタデータ） (2023-08-14T09:22:35Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。 CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文参考訳（メタデータ） (2022-10-15T00:53:03Z)
Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文参考訳（メタデータ） (2022-04-20T08:50:23Z)
An Alternate Policy Gradient Estimator for Softmax Policies [36.48028448548086]
ソフトマックス政策のための新しいポリシー勾配推定器を提案する。バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。
論文参考訳（メタデータ） (2021-12-22T02:01:19Z)
Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文参考訳（メタデータ） (2021-07-03T07:01:23Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。 FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文参考訳（メタデータ） (2020-02-16T05:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。