論文の概要: Extending Open Bandit Pipeline to Simulate Industry Challenges
- arxiv url: http://arxiv.org/abs/2209.04147v1
- Date: Fri, 9 Sep 2022 07:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:09:23.369567
- Title: Extending Open Bandit Pipeline to Simulate Industry Challenges
- Title(参考訳): 産業課題をシミュレートするオープンバンドパイプラインの拡張
- Authors: Bram van den Akker, Niklas Weber, Felipe Moraes, and Dmitri Goldenberg
- Abstract要約: バンディットアルゴリズムは、事前にラベル付けされたデータが利用できない場合に機械学習(ML)システムをトレーニングするために、電子商取引業界でよく使用される。
しかし、業界設定は、実際にバンディットアルゴリズムを実装することの難しさを生んでいる。
我々は,ブッキング.comの実践者がバンディットアルゴリズムを適用する際に直面する,政治外の最適化,遅延報酬,コンセプトドリフト,報酬設計,ビジネスルール制約の課題について詳述する。
- 参考スコア(独自算出の注目度): 6.626004627015272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bandit algorithms are often used in the e-commerce industry to train Machine
Learning (ML) systems when pre-labeled data is unavailable. However, the
industry setting poses various challenges that make implementing bandit
algorithms in practice non-trivial. In this paper, we elaborate on the
challenges of off-policy optimisation, delayed reward, concept drift, reward
design, and business rules constraints that practitioners at Booking.com
encounter when applying bandit algorithms. Our main contributions is an
extension to the Open Bandit Pipeline (OBP) framework. We provide simulation
components for some of the above-mentioned challenges to provide future
practitioners, researchers, and educators with a resource to address challenges
encountered in the e-commerce industry.
- Abstract(参考訳): 帯域幅アルゴリズムは、事前にラベル付けされたデータが利用できない場合に機械学習(ML)システムのトレーニングにしばしば使用される。
しかし、業界設定は、実際にバンディットアルゴリズムを実装することの難しさを生んでいる。
本稿では,ブッキング.comでバンディットアルゴリズムを適用する際に経験する,オフ・ポリティクス最適化,遅延報酬,コンセプトドリフト,報酬設計,ビジネスルール制約の課題について詳述する。
私たちの主な貢献は、open bandit pipeline(obp)フレームワークの拡張です。
今後の実践者、研究者、教育者に対して、Eコマース業界で直面する課題に対処するためのリソースを提供するため、上記の課題のいくつかをシミュレーションコンポーネントとして提供します。
関連論文リスト
- PageRank Bandits for Link Prediction [72.61386754332776]
リンク予測は、リコメンダシステムやナレッジグラフ補完といった幅広いアプリケーションを用いたグラフ学習において重要な問題である。
本稿では,リンク予測を逐次的意思決定プロセスとして再構成し,各リンク予測インタラクションを逐次的に行う。
本稿では,PageRankとコンテキスト的帯域を結合した新しい融合アルゴリズム PRB (PageRank Bandits) を提案する。
論文 参考訳(メタデータ) (2024-11-03T02:39:28Z) - GEMS: Generative Expert Metric System through Iterative Prompt Priming [18.0413505095456]
非専門家は、効果的な測度を作成したり、理論を文脈特異的なメトリクスに変換するのが直感的ではないと考えることができる。
この技術的レポートは、大規模ソフトウェア企業内のソフトウェアコミュニティを調べることで、この問題に対処する。
本稿では,ニューラルアクティビティにインスパイアされたプロンプトエンジニアリングフレームワークを提案し,生成モデルが理論を抽出し,要約できることを実証する。
論文 参考訳(メタデータ) (2024-10-01T17:14:54Z) - Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Neural Contextual Bandits for Personalized Recommendation [49.85090929163639]
本チュートリアルでは、パーソナライズされたレコメンデーションのための強力なフレームワークとして、コンテキスト帯について検討する。
我々は、リコメンデーターシステムにおける「マシュー効果」を緩和するために、文脈的盗賊の探索的視点に焦点を当てる。
従来の線形文脈包帯に加えて、我々は神経文脈包帯にも焦点をあてる。
論文 参考訳(メタデータ) (2023-12-21T17:03:26Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Online Matching: A Real-time Bandit System for Large-scale
Recommendations [23.954049092470548]
Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:46:27Z) - "Sch\"one neue Lieferkettenwelt": Workers' Voice und Arbeitsstandards in
Zeiten algorithmischer Vorhersage [0.0]
我々は、主要な企業がこれらの課題に対処するために使用している新しいアプローチについて議論する。
アルゴリズム予測のための技術的・文化的条件について述べる。
我々は、どのようにして、どのようにして、どのようにして、アルゴリズムによる予測が使えるかのシナリオを開発する。
論文 参考訳(メタデータ) (2023-05-19T20:01:26Z) - BeFair: Addressing Fairness in the Banking Sector [54.08949958349055]
銀行セクターにおける産業的オープンイノベーションプロジェクトの最初の成果を提示する。
本稿では,MLの公平性に関する一般的なロードマップと,バイアスの特定と緩和を支援するBeFairと呼ばれるツールキットの実装を提案する。
論文 参考訳(メタデータ) (2021-02-03T16:37:10Z) - Constraint Programming Algorithms for Route Planning Exploiting
Geometrical Information [91.3755431537592]
本稿では,経路計画問題に対する新しいアルゴリズムの開発に関する現在の研究動向について概説する。
これまでの研究は、特にユークリッド旅行セールスパーソン問題(ユークリッドTSP)に焦点を当ててきた。
目的は、将来ユークリッド自動車問題(ユークリッドVRP)など、同じカテゴリーの他の問題にも得られる結果を活用することである。
論文 参考訳(メタデータ) (2020-09-22T00:51:45Z) - Instance exploitation for learning temporary concepts from sparsely
labeled drifting data streams [15.49323098362628]
ストリーミングデータソースからの継続的な学習がますます人気を博している。
動的で絶え間ない問題に対処することは 新たな課題を引き起こします
最も重要な制限の1つは、有限で完全なデータセットにアクセスできないことである。
論文 参考訳(メタデータ) (2020-09-20T08:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。