論文の概要: Extending Open Bandit Pipeline to Simulate Industry Challenges
- arxiv url: http://arxiv.org/abs/2209.04147v1
- Date: Fri, 9 Sep 2022 07:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:09:23.369567
- Title: Extending Open Bandit Pipeline to Simulate Industry Challenges
- Title(参考訳): 産業課題をシミュレートするオープンバンドパイプラインの拡張
- Authors: Bram van den Akker, Niklas Weber, Felipe Moraes, and Dmitri Goldenberg
- Abstract要約: バンディットアルゴリズムは、事前にラベル付けされたデータが利用できない場合に機械学習(ML)システムをトレーニングするために、電子商取引業界でよく使用される。
しかし、業界設定は、実際にバンディットアルゴリズムを実装することの難しさを生んでいる。
我々は,ブッキング.comの実践者がバンディットアルゴリズムを適用する際に直面する,政治外の最適化,遅延報酬,コンセプトドリフト,報酬設計,ビジネスルール制約の課題について詳述する。
- 参考スコア(独自算出の注目度): 6.626004627015272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bandit algorithms are often used in the e-commerce industry to train Machine
Learning (ML) systems when pre-labeled data is unavailable. However, the
industry setting poses various challenges that make implementing bandit
algorithms in practice non-trivial. In this paper, we elaborate on the
challenges of off-policy optimisation, delayed reward, concept drift, reward
design, and business rules constraints that practitioners at Booking.com
encounter when applying bandit algorithms. Our main contributions is an
extension to the Open Bandit Pipeline (OBP) framework. We provide simulation
components for some of the above-mentioned challenges to provide future
practitioners, researchers, and educators with a resource to address challenges
encountered in the e-commerce industry.
- Abstract(参考訳): 帯域幅アルゴリズムは、事前にラベル付けされたデータが利用できない場合に機械学習(ML)システムのトレーニングにしばしば使用される。
しかし、業界設定は、実際にバンディットアルゴリズムを実装することの難しさを生んでいる。
本稿では,ブッキング.comでバンディットアルゴリズムを適用する際に経験する,オフ・ポリティクス最適化,遅延報酬,コンセプトドリフト,報酬設計,ビジネスルール制約の課題について詳述する。
私たちの主な貢献は、open bandit pipeline(obp)フレームワークの拡張です。
今後の実践者、研究者、教育者に対して、Eコマース業界で直面する課題に対処するためのリソースを提供するため、上記の課題のいくつかをシミュレーションコンポーネントとして提供します。
関連論文リスト
- Learning Adversarial MDPs with Stochastic Hard Constraints [40.68958894252774]
本研究では,制約付き意思決定プロセスにおけるオンライン学習問題について,対向的損失と厳しい制約を伴う検討を行った。
我々は,各エピソードの制約を高い確率で満たしながら,サブ線形後悔を実現するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Neural Contextual Bandits for Personalized Recommendation [49.85090929163639]
本チュートリアルでは、パーソナライズされたレコメンデーションのための強力なフレームワークとして、コンテキスト帯について検討する。
我々は、リコメンデーターシステムにおける「マシュー効果」を緩和するために、文脈的盗賊の探索的視点に焦点を当てる。
従来の線形文脈包帯に加えて、我々は神経文脈包帯にも焦点をあてる。
論文 参考訳(メタデータ) (2023-12-21T17:03:26Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Online Matching: A Real-time Bandit System for Large-scale
Recommendations [23.954049092470548]
Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:46:27Z) - "Sch\"one neue Lieferkettenwelt": Workers' Voice und Arbeitsstandards in
Zeiten algorithmischer Vorhersage [0.0]
我々は、主要な企業がこれらの課題に対処するために使用している新しいアプローチについて議論する。
アルゴリズム予測のための技術的・文化的条件について述べる。
我々は、どのようにして、どのようにして、どのようにして、アルゴリズムによる予測が使えるかのシナリオを開発する。
論文 参考訳(メタデータ) (2023-05-19T20:01:26Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Towards Machine Learning for Placement and Routing in Chip Design: a
Methodological Overview [72.79089075263985]
配置とルーティングは、現代のチップ設計フローにおいて必須かつ困難な2つのタスクである。
機械学習は、そのデータ駆動性によって有望な見通しを示しており、知識や事前への依存度は低い。
論文 参考訳(メタデータ) (2022-02-28T06:28:44Z) - BeFair: Addressing Fairness in the Banking Sector [54.08949958349055]
銀行セクターにおける産業的オープンイノベーションプロジェクトの最初の成果を提示する。
本稿では,MLの公平性に関する一般的なロードマップと,バイアスの特定と緩和を支援するBeFairと呼ばれるツールキットの実装を提案する。
論文 参考訳(メタデータ) (2021-02-03T16:37:10Z) - Constraint Programming Algorithms for Route Planning Exploiting
Geometrical Information [91.3755431537592]
本稿では,経路計画問題に対する新しいアルゴリズムの開発に関する現在の研究動向について概説する。
これまでの研究は、特にユークリッド旅行セールスパーソン問題(ユークリッドTSP)に焦点を当ててきた。
目的は、将来ユークリッド自動車問題(ユークリッドVRP)など、同じカテゴリーの他の問題にも得られる結果を活用することである。
論文 参考訳(メタデータ) (2020-09-22T00:51:45Z) - Instance exploitation for learning temporary concepts from sparsely
labeled drifting data streams [15.49323098362628]
ストリーミングデータソースからの継続的な学習がますます人気を博している。
動的で絶え間ない問題に対処することは 新たな課題を引き起こします
最も重要な制限の1つは、有限で完全なデータセットにアクセスできないことである。
論文 参考訳(メタデータ) (2020-09-20T08:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。