論文の概要: Unified Off-Policy Learning to Rank: a Reinforcement Learning
Perspective
- arxiv url: http://arxiv.org/abs/2306.07528v3
- Date: Sat, 28 Oct 2023 06:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:28:54.323115
- Title: Unified Off-Policy Learning to Rank: a Reinforcement Learning
Perspective
- Title(参考訳): ランクへの統一オフポリシー学習:強化学習視点
- Authors: Zeyu Zhang, Yi Su, Hui Yuan, Yiran Wu, Rishab Balasubramanian, Qingyun
Wu, Huazheng Wang, Mengdi Wang
- Abstract要約: メソッドをランク付けするオフポリシー学習は、ユーザがクリックデータを生成する方法に関して、強い仮定をすることが多い。
オフライン強化学習は,複雑なデバイアス手法や事前知識を使わずに,様々なクリックモデルに適応できることを示す。
様々な大規模データセットの結果から、CUOLRはアルゴリズムのランク付けに最先端のオフポリシー学習を一貫して上回っていることが示される。
- 参考スコア(独自算出の注目度): 61.4025671743675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy Learning to Rank (LTR) aims to optimize a ranker from data
collected by a deployed logging policy. However, existing off-policy learning
to rank methods often make strong assumptions about how users generate the
click data, i.e., the click model, and hence need to tailor their methods
specifically under different click models. In this paper, we unified the
ranking process under general stochastic click models as a Markov Decision
Process (MDP), and the optimal ranking could be learned with offline
reinforcement learning (RL) directly. Building upon this, we leverage offline
RL techniques for off-policy LTR and propose the Click Model-Agnostic Unified
Off-policy Learning to Rank (CUOLR) method, which could be easily applied to a
wide range of click models. Through a dedicated formulation of the MDP, we show
that offline RL algorithms can adapt to various click models without complex
debiasing techniques and prior knowledge of the model. Results on various
large-scale datasets demonstrate that CUOLR consistently outperforms the
state-of-the-art off-policy learning to rank algorithms while maintaining
consistency and robustness under different click models.
- Abstract(参考訳): Off-policy Learning to Rank (LTR)は、デプロイされたロギングポリシによって収集されたデータからランキングを最適化することを目的としている。
しかしながら、既存のオフポリシー学習とメソッドのランク付けは、ユーザがクリックデータ、すなわちクリックモデルをどのように生成するか、という強い仮定をもたらします。
本稿では,一般的な確率的クリックモデルに基づくランク付け過程をマルコフ決定過程 (MDP) として統合し,オフライン強化学習 (RL) を用いて最適なランク付けを学習する。
そこで我々は,オフポリチックLTRのオフラインRL技術を活用し,Click Model-Agnostic Unified Off-policy Learning to Rank (CUOLR)法を提案する。
MDPの専用定式化により、オフラインRLアルゴリズムは複雑なデバイアス技術やモデルの事前知識を使わずに様々なクリックモデルに適応できることを示す。
さまざまな大規模データセットの結果から、CUOLRは、さまざまなクリックモデルの下で一貫性と堅牢性を保ちながら、アルゴリズムをランク付けする最先端のオフポリシー学習を一貫して上回ります。
関連論文リスト
- Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文 参考訳(メタデータ) (2022-09-19T18:51:33Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Meta Reinforcement Learning for Adaptive Control: An Offline Approach [3.131740922192114]
トレーニングにおいて、既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化する。
我々のメタRLエージェントはリカレントな構造を持ち、隠された状態変数を通して現在のダイナミックスに対して"コンテキスト"を蓄積します。
ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-17T23:58:52Z) - Online and Offline Reinforcement Learning by Planning with a Learned
Model [15.8026041700727]
本稿では、モデルベースのポリシーと値改善演算子を用いて、既存のデータポイント上の新しい改善されたトレーニングターゲットを計算するReanalyseアルゴリズムについて述べる。
Reanalyseは環境相互作用のない実演から完全に学習するためにも利用できることを示す。
オフラインRLを含む任意のデータ予算に対して単一の統一アルゴリズムである MuZero Unplugged を導入する。
論文 参考訳(メタデータ) (2021-04-13T15:36:06Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。