論文の概要: Maximizing Success Rate of Payment Routing using Non-stationary Bandits
- arxiv url: http://arxiv.org/abs/2308.01028v2
- Date: Fri, 6 Oct 2023 07:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:11:27.089404
- Title: Maximizing Success Rate of Payment Routing using Non-stationary Bandits
- Title(参考訳): 非定常バンディットを用いた支払いルーティングの成功率の最大化
- Authors: Aayush Chaudhary, Abhinav Rai, Abhishek Gupta
- Abstract要約: 帯域幅に基づく支払いルーティングを1秒あたり1万トランザクション以上に最適にスケールするためのRayベースの実装を提案する。
我々は,ファンタジースポーツプラットフォームDream11上で,決済取引システムの実演実験を行った。
我々の非定常帯域ベースアルゴリズムは、従来のルールベースの手法に比べて1ヶ月でトランザクションの成功率を0.92%改善する。
- 参考スコア(独自算出の注目度): 5.781861264333114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses the system architecture design and deployment of
non-stationary multi-armed bandit approaches to determine a near-optimal
payment routing policy based on the recent history of transactions. We propose
a Routing Service architecture using a novel Ray-based implementation for
optimally scaling bandit-based payment routing to over 10,000 transactions per
second, adhering to the system design requirements and ecosystem constraints
with Payment Card Industry Data Security Standard (PCI DSS). We first evaluate
the effectiveness of multiple bandit-based payment routing algorithms on a
custom simulator to benchmark multiple non-stationary bandit approaches and
identify the best hyperparameters. We then conducted live experiments on the
payment transaction system on a fantasy sports platform Dream11. In the live
experiments, we demonstrated that our non-stationary bandit-based algorithm
consistently improves the success rate of transactions by 0.92% compared to the
traditional rule-based methods over one month.
- Abstract(参考訳): 本稿では、近年の取引履歴に基づいて、ほぼ最適の支払いルーティングポリシーを決定するために、非定常的マルチアームバンディットアプローチの設計と展開について論じる。
そこで本稿では,PCI DSS(Payment Card Industry Data Security Standard)によるシステム設計要件とエコシステム制約に準拠して,帯域幅ベースの支払いルーティングを毎秒10,000トランザクションに最適にスケールアップする,新しいRayベースのルーティングサービスアーキテクチャを提案する。
まず、カスタムシミュレータ上で複数のbanditベースの支払いルーティングアルゴリズムの有効性を評価し、非定常banditアプローチをベンチマークし、最適なハイパーパラメータを特定する。
次に、ファンタジースポーツプラットフォームdream11上で支払い取引システムに関する実演実験を行った。
実演実験では,我々の非定常帯域ベースアルゴリズムは,従来のルールベースの手法に比べて,トランザクションの成功率を0.92%向上させることを示した。
関連論文リスト
- Partially Observable Contextual Bandits with Linear Payoffs [18.593061465167363]
我々は、部分的に観測可能で相関したコンテキストと線形ペイオフを持つ新しい帯域設定を考える。
本稿では,EMKF-Banditというアルゴリズムパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-17T19:47:04Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Rate-Optimal Policy Optimization for Linear Markov Decision Processes [65.5958446762678]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Congested Bandits: Optimal Routing via Short-term Resets [30.892724364965]
本研究では,過去の演奏回数に応じて各腕の報奨が許される「混雑バンド」の問題について検討する。
UCBスタイルのアルゴリズムを提案し、そのポリシーの後悔は$tildeO(sqrtK Delta T)$であることを示す。
線形コンテキスト的帯域設定では,最小二乗プランナを反復的に用いたアルゴリズムが,ポリシー後悔の$tildeO(sqrtdT + Delta)$を達成している。
論文 参考訳(メタデータ) (2023-01-23T03:11:06Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - TTRS: Tinkoff Transactions Recommender System benchmark [62.997667081978825]
TTRS - Tinkoff Transactions Recommender Systemベンチマークを示す。
この金融取引ベンチマークには、約1万人のユーザーと、14ヶ月で1000以上の商業ブランドの間で200万以上のインタラクションが含まれている。
また,現在普及しているRecSys手法を次の期間の推薦タスクで総合的に比較し,その性能を様々な指標や推奨目標に対して詳細に分析する。
論文 参考訳(メタデータ) (2021-10-11T20:04:07Z) - Reward-Biased Maximum Likelihood Estimation for Linear Stochastic
Bandits [16.042075861624056]
我々は,注文最適性を証明できる新しい指標ポリシーを開発し,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。
新しいポリシーは、線形バンディットに対して1プル当たりの少ない時間でこれを達成し、結果として、好意的な後悔と計算効率の両方をもたらす。
論文 参考訳(メタデータ) (2020-10-08T16:17:53Z) - Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。
本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。
我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文 参考訳(メタデータ) (2020-09-27T20:47:25Z) - Optimal Bidding Strategy without Exploration in Real-time Bidding [14.035270361462576]
予算制約によるユーティリティの最大化は、リアルタイム入札(RTB)システムにおける広告主の主要な目標である。
それまでの作品は、検閲された国家の困難を和らげるために競売に敗れたことを無視していた。
本稿では,リアルタイムトラフィックで観測される真の分布の挙動を模倣するために,最大エントロピー原理を用いた新しい実用的枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-31T20:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。