論文の概要: Exploration of Unranked Items in Safe Online Learning to Re-Rank
- arxiv url: http://arxiv.org/abs/2305.01202v1
- Date: Tue, 2 May 2023 04:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 15:25:57.550814
- Title: Exploration of Unranked Items in Safe Online Learning to Re-Rank
- Title(参考訳): 安全なオンライン学習における不正項目の探索
- Authors: Hiroaki Shiino, Kaito Ariu, Kenshi Abe, Togashi Riku
- Abstract要約: オンライン学習における課題のランク付けのためのバンドアルゴリズムは、ユーザのフィードバックを利用して長期的な収益を最大化することを目的としている。
現実的な観点から見れば、このようなアルゴリズムは攻撃的な探索によってユーザー体験を傷つけるリスクが高い。
安全な探索の1つのアプローチは、許容できる品質をすでに保証しているオリジナルランキングの品質を徐々に向上させることである。
- 参考スコア(独自算出の注目度): 1.5446362182482503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bandit algorithms for online learning to rank (OLTR) problems often aim to
maximize long-term revenue by utilizing user feedback. From a practical point
of view, however, such algorithms have a high risk of hurting user experience
due to their aggressive exploration. Thus, there has been a rising demand for
safe exploration in recent years. One approach to safe exploration is to
gradually enhance the quality of an original ranking that is already guaranteed
acceptable quality. In this paper, we propose a safe OLTR algorithm that
efficiently exchanges one of the items in the current ranking with an item
outside the ranking (i.e., an unranked item) to perform exploration. We select
an unranked item optimistically to explore based on Kullback-Leibler upper
confidence bounds (KL-UCB) and safely re-rank the items including the selected
one. Through experiments, we demonstrate that the proposed algorithm improves
long-term regret from baselines without any safety violation.
- Abstract(参考訳): オンライン学習(OLTR)問題をランク付けするためのバンドアルゴリズムは、ユーザフィードバックを利用して長期的な収益を最大化することを目的としている。
しかし、現実的な観点から見れば、こうしたアルゴリズムは積極的な探索によってユーザー体験を傷つけるリスクが高い。
このように、近年、安全な探検の需要が高まっている。
安全な探索の1つのアプローチは、許容できる品質をすでに保証しているオリジナルランキングの品質を徐々に向上させることである。
本稿では,現在ランキングにある項目の1つを,ランキング外の項目(すなわち未ランク項目)と効率的に交換し,探索を行う安全なoltrアルゴリズムを提案する。
kullback-leibler upper confidence bounds (kl-ucb)に基づいて楽観的に未ランクの項目を選択し,選択した項目を含む項目を安全に再ランク付けする。
実験により,提案アルゴリズムは,安全違反を伴わずに,ベースラインからの長期的後悔を改善することを示した。
関連論文リスト
- Zeroshot Listwise Learning to Rank Algorithm for Recommendation [5.694872363688119]
ランク付けの学習は、ディープニューラルネットワークのような他の技術と比較して珍しい技術である。
我々は、推薦アルゴリズムをランク付けするためにゼロショットリストワイズを設計する。
論文 参考訳(メタデータ) (2024-09-05T09:16:14Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Optimizing Ranking Systems Online as Bandits [2.282430531490685]
オンラインでランキングシステムを最適化する4つの課題について検討し,提案する。
この効果は、アルゴリズムが相互作用からどれだけ速く学習するかに関係している。
第二に、デプロイされたアルゴリズムは安全でなければならない。つまり、アルゴリズムはユーザ要求に対して適切なコンテンツのみを表示する。
第三に、ユーザーが常に好みを変えるとき、アルゴリズムは非定常性を扱うべきである。
論文 参考訳(メタデータ) (2021-10-12T08:07:46Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Greedy Algorithm almost Dominates in Smoothed Contextual Bandits [100.09904315064372]
オンライン学習アルゴリズムは探索と搾取のバランスをとる必要がある。
欲求的アプローチは、他のアルゴリズムのベイズ的後悔率とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2020-05-19T18:11:40Z) - Safe Exploration for Optimizing Contextual Bandits [58.22688545687366]
安全探索アルゴリズム(SEA)による文脈的帯域幅問題に対する新しい学習手法を提案する。
SEAは、ベースライン(または生産)ランキングシステム(つまりポリシー)を使用することから始まる。
SEAは、カウンターファクトラーニングを使用して、ベースラインポリシーの振る舞いに基づいた新しいポリシーを学習する。
論文 参考訳(メタデータ) (2020-02-02T19:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。