論文の概要: Safely Exploring Novel Actions in Recommender Systems via Deployment-Efficient Policy Learning
- arxiv url: http://arxiv.org/abs/2510.07635v1
- Date: Thu, 09 Oct 2025 00:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.786677
- Title: Safely Exploring Novel Actions in Recommender Systems via Deployment-Efficient Policy Learning
- Title(参考訳): デプロイ効率の良い政策学習によるレコメンダシステムにおける新しい行動の安全な探索
- Authors: Haruka Kiyohara, Yusuke Narita, Yuta Saito, Kei Tateno, Takuma Udagawa,
- Abstract要約: 本稿では,新しい行動の探索を安全保証として実施するための枠組みを提案する。
本フレームワークは,レコメンデータシステムの安全な実装を保証しながら,新たな行動の探索を可能にする。
- 参考スコア(独自算出の注目度): 20.869549635152858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real recommender systems, novel items are added frequently over time. The importance of sufficiently presenting novel actions has widely been acknowledged for improving long-term user engagement. A recent work builds on Off-Policy Learning (OPL), which trains a policy from only logged data, however, the existing methods can be unsafe in the presence of novel actions. Our goal is to develop a framework to enforce exploration of novel actions with a guarantee for safety. To this end, we first develop Safe Off-Policy Policy Gradient (Safe OPG), which is a model-free safe OPL method based on a high confidence off-policy evaluation. In our first experiment, we observe that Safe OPG almost always satisfies a safety requirement, even when existing methods violate it greatly. However, the result also reveals that Safe OPG tends to be too conservative, suggesting a difficult tradeoff between guaranteeing safety and exploring novel actions. To overcome this tradeoff, we also propose a novel framework called Deployment-Efficient Policy Learning for Safe User Exploration, which leverages safety margin and gradually relaxes safety regularization during multiple (not many) deployments. Our framework thus enables exploration of novel actions while guaranteeing safe implementation of recommender systems.
- Abstract(参考訳): 多くのレコメンデーションシステムでは、新しいアイテムが時間とともに頻繁に追加されます。
新規アクションを十分に提示することの重要性は、長期的なユーザエンゲージメントを改善するために広く認識されている。
最近の研究は、ログデータのみからポリシーをトレーニングするOff-Policy Learning (OPL)の上に構築されている。
我々のゴールは、安全を保証する新しい行動の探索を強制する枠組みを開発することである。
この目的のために,我々はまず,モデルフリーで安全なOPL手法であるSafe Off-Policy Policy Gradient (Safe OPG) を開発した。
最初の実験で、Safe OPGは、たとえ既存の方法が大幅に違反しても、ほぼ常に安全要件を満たすことを観察した。
しかし, セーフOPGは保守的すぎる傾向にあり, 安全性の確保と新規行動の探索とのトレードオフが難しいことが示唆された。
このトレードオフを克服するために、安全なユーザ探索のためのデプロイ効率の良いポリシー学習という新しいフレームワークも提案します。
提案手法は,レコメンダシステムの安全な実装を保証しつつ,新たな行動の探索を可能にする。
関連論文リスト
- SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-26T14:50:01Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Verification-Guided Shielding for Deep Reinforcement Learning [4.418183967223081]
Deep Reinforcement Learning (DRL)は、現実世界の課題を解決するための効果的なアプローチとして登場した。
正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。
これら2つの手法を統合することでDRLの信頼性ギャップを橋渡しする新しい手法である検証誘導遮蔽法を提案する。
論文 参考訳(メタデータ) (2024-06-10T17:44:59Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。