論文の概要: Accelerating Offline Reinforcement Learning Application in Real-Time
Bidding and Recommendation: Potential Use of Simulation
- arxiv url: http://arxiv.org/abs/2109.08331v1
- Date: Fri, 17 Sep 2021 02:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:36:21.351723
- Title: Accelerating Offline Reinforcement Learning Application in Real-Time
Bidding and Recommendation: Potential Use of Simulation
- Title(参考訳): リアルタイム入札・勧告におけるオフライン強化学習の高速化:シミュレーションの可能性
- Authors: Haruka Kiyohara, Kosuke Kawakami, Yuta Saito
- Abstract要約: オフライン強化学習(オフラインRL)とオフライン評価(OPE)は、リスクのあるオンラインインタラクションを伴わないログデータのみを使用して安全なポリシ最適化を可能にするため、メリットがある。
我々は,オフラインRLとOPEの実証研究において,シミュレーションを効果的に活用すべきであると主張する。
本稿では,RecSys および RTB におけるオフライン RL と OPE の実践的研究をさらに促進するためのオープンな課題を提案する。
- 参考スコア(独自算出の注目度): 8.035521056416242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recommender systems (RecSys) and real-time bidding (RTB) for online
advertisements, we often try to optimize sequential decision making using
bandit and reinforcement learning (RL) techniques. In these applications,
offline reinforcement learning (offline RL) and off-policy evaluation (OPE) are
beneficial because they enable safe policy optimization using only logged data
without any risky online interaction. In this position paper, we explore the
potential of using simulation to accelerate practical research of offline RL
and OPE, particularly in RecSys and RTB. Specifically, we discuss how
simulation can help us conduct empirical research of offline RL and OPE. We
take a position to argue that we should effectively use simulations in the
empirical research of offline RL and OPE. To refute the counterclaim that
experiments using only real-world data are preferable, we first point out the
underlying risks and reproducibility issue in real-world experiments. Then, we
describe how these issues can be addressed by using simulations. Moreover, we
show how to incorporate the benefits of both real-world and simulation-based
experiments to defend our position. Finally, we also present an open challenge
to further facilitate practical research of offline RL and OPE in RecSys and
RTB, with respect to public simulation platforms. As a possible solution for
the issue, we show our ongoing open source project and its potential use case.
We believe that building and utilizing simulation-based evaluation platforms
for offline RL and OPE will be of great interest and relevance for the RecSys
and RTB community.
- Abstract(参考訳): オンライン広告のレコメンダシステム(recsys)とリアルタイム入札(rtb)では,バンディットと強化学習(rl)を用いた逐次意思決定の最適化を試みることが多い。
これらのアプリケーションでは、オフライン強化学習(オフラインrl)とオフポリシー評価(ope)は、オンラインインタラクションを危険にさらすことなくログデータのみを使用して安全なポリシー最適化を可能にするため、有用である。
本稿では,特にRecSys と RTB において,オフライン RL と OPE の実用的な研究を加速するためにシミュレーションを利用する可能性について検討する。
具体的には、シミュレーションがオフラインRLとOPEの実証的研究にどのように役立つかについて議論する。
我々は,オフラインRLとOPEの実証研究において,シミュレーションを効果的に活用すべきという立場を取る。
実世界のデータのみを使用した実験が望ましいという反論に対して,まず,実世界の実験における根本的なリスクと再現可能性の問題について指摘する。
次に,これらの課題をシミュレーションを用いて解決する方法について述べる。
さらに,実世界およびシミュレーションに基づく実験の利点を取り入れて,その立場を防御する方法を示す。
最後に、公開シミュレーションプラットフォームに関して、RecSysおよびRTBにおけるオフラインRLおよびOPEの実践的研究をさらに促進するためのオープンな課題を示す。
この問題の解決策として、現在進行中のオープンソースプロジェクトとその潜在的なユースケースを示します。
オフラインRLとOPEのためのシミュレーションベースの評価プラットフォームの構築と活用は、RecSysとRTBコミュニティにとって大きな関心と関係があると考えています。
関連論文リスト
- Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators [16.740841615738642]
強化学習におけるオフラインデータと不完全なシミュレータを結合する4つの主な課題を概説する。
これらの課題には、シミュレータモデリングエラー、部分的な可観測性、状態と動作の相違、隠れたコンファウンディングが含まれる。
この結果から,今後の研究におけるベンチマークの必要性が示唆された。
論文 参考訳(メタデータ) (2024-06-30T19:22:59Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。