論文の概要: Off-policy Evaluation for Payments at Adyen
- arxiv url: http://arxiv.org/abs/2501.10470v1
- Date: Wed, 15 Jan 2025 22:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 19:37:19.029983
- Title: Off-policy Evaluation for Payments at Adyen
- Title(参考訳): アディエンにおける支払いのオフ・ポリティクス・アセスメント
- Authors: Alex Egg,
- Abstract要約: オフ・ポリティ・アセスメント(OPE)は、Adyenの推奨システム開発と最適化を加速するために適用された。
分析の結果,OPE推定値とオンラインA/Bテスト結果との間には強い相関関係があることが判明した。
大規模産業決済システムにおける意思決定システムの有効性と統合に関するガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper demonstrates the successful application of Off-Policy Evaluation (OPE) to accelerate recommender system development and optimization at Adyen, a global leader in financial payment processing. Facing the limitations of traditional A/B testing, which proved slow, costly, and often inconclusive, we integrated OPE to enable rapid evaluation of new recommender system variants using historical data. Our analysis, conducted on a billion-scale dataset of transactions, reveals a strong correlation between OPE estimates and online A/B test results, projecting an incremental 9--54 million transactions over a six-month period. We explore the practical challenges and trade-offs associated with deploying OPE in a high-volume production environment, including leveraging exploration traffic for data collection, mitigating variance in importance sampling, and ensuring scalability through the use of Apache Spark. By benchmarking various OPE estimators, we provide guidance on their effectiveness and integration into the decision-making systems for large-scale industrial payment systems.
- Abstract(参考訳): 本稿では、金融決済処理のグローバルリーダーであるAdyenにおいて、レコメンデータシステム開発と最適化を促進するために、Off-Policy Evaluation(OPE)を成功させたことを実証する。
従来のA/Bテストの限界は遅く、コストがかかり、しばしば不確定であったため、我々はOPEを統合し、履歴データを用いて新しい推奨システム変種を迅速に評価できるようにした。
分析の結果,OPEの推定値とオンラインA/Bテスト結果との間には強い相関関係があることが判明した。
我々は、データ収集のための探索トラフィックの活用、重要サンプリングのばらつきの軽減、Apache Sparkの使用によるスケーラビリティの確保など、OPEを大量生産環境にデプロイする上での実践的な課題とトレードオフについて検討する。
各種OPE推定器のベンチマークにより,大規模産業用決済システムにおける意思決定システムへの有効性と統合に関するガイダンスを提供する。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - A Scalable Data-Driven Framework for Systematic Analysis of SEC 10-K Filings Using Large Language Models [0.0]
SEC10-Kの申請に基づいて企業の業績を分析し,評価する,新たなデータ駆動型アプローチを提案する。
提案手法は、データパイプラインを実行して視覚化を作成するためのノーコードソリューションとして、対話型GUI上に実装される。
このアプリケーションは評価結果を示し、企業業績の年次比較を提供する。
論文 参考訳(メタデータ) (2024-09-26T06:57:22Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy
Evaluation [17.319113169622806]
Off-Policy Evaluation (OPE) は、オフラインログデータのみを使用して、反ファクトポリシーの有効性を評価することを目的としている。
OPE推定器の既存の評価指標は、主にOPEの「正確性」や下流政策の選択に焦点を当てている。
我々は、OPE推定器によって形成される政策ポートフォリオのリスク・リターントレードオフを測定するSharpeRatio@kと呼ばれる新しい指標を開発する。
論文 参考訳(メタデータ) (2023-11-30T02:56:49Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Off-Policy Evaluation for Large Action Spaces via Embeddings [36.42838320396534]
文脈的包帯におけるオフ政治評価(OPE)は、現実世界のシステムで急速に採用されている。
既存のOPE推定器は、アクションの数が大きいと著しく劣化する。
我々は,アクション埋め込みがアクション空間の構造を提供する際に,余分な重み付けを生かした新しいOPE推定器を提案する。
論文 参考訳(メタデータ) (2022-02-13T14:00:09Z) - TTRS: Tinkoff Transactions Recommender System benchmark [62.997667081978825]
TTRS - Tinkoff Transactions Recommender Systemベンチマークを示す。
この金融取引ベンチマークには、約1万人のユーザーと、14ヶ月で1000以上の商業ブランドの間で200万以上のインタラクションが含まれている。
また,現在普及しているRecSys手法を次の期間の推薦タスクで総合的に比較し,その性能を様々な指標や推奨目標に対して詳細に分析する。
論文 参考訳(メタデータ) (2021-10-11T20:04:07Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Enhancing User' s Income Estimation with Super-App Alternative Data [59.60094442546867]
これは、これらの代替データソースのパフォーマンスと、業界に受け入れられた局の収入推定器のパフォーマンスを比較します。
本論文は、金融機関がリスクプロファイルの構築に代替データを導入しようとする動機を示すものである。
論文 参考訳(メタデータ) (2021-04-12T21:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。