論文の概要: Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen
- arxiv url: http://arxiv.org/abs/2412.00569v1
- Date: Sat, 30 Nov 2024 19:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:47.581423
- Title: Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen
- Title(参考訳): 支払い処理におけるコンテキスト帯域:Adyenにおける一様探索と教師付き学習
- Authors: Akhila Vangara, Alex Egg,
- Abstract要約: 回帰オラクルは、一様でない探索と教師あり学習を組み合わせたものである。
我々は、大規模なグローバル決済プロセッサであるAdyenにおいて、現実の産業状況におけるこれらのアプローチを分析した。
回帰オラクルは性能を著しく向上させるが、厳密なアルゴリズムの仮定による課題を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Uniform random exploration in decision-making systems supports off-policy learning via supervision but incurs high regret, making it impractical for many applications. Conversely, non-uniform exploration offers better immediate performance but lacks support for off-policy learning. Recent research suggests that regression oracles can bridge this gap by combining non-uniform exploration with supervised learning. In this paper, we analyze these approaches within a real-world industrial context at Adyen, a large global payments processor characterized by batch logged delayed feedback, short-term memory, and dynamic action spaces under the Empirical Risk Minimization (ERM) framework. Our analysis reveals that while regression oracles significantly improve performance, they introduce challenges due to rigid algorithmic assumptions. Specifically, we observe that as a policy improves, subsequent generations may perform worse due to shifts in the reward distribution and increased class imbalance in the training data. This degradation occurs de spite improvements in other aspects of the training data, leading to decreased performance in successive policy iterations. We further explore the long-term impact of regression oracles, identifying a potential "oscillation effect." This effect arises when regression oracles influence probability estimates and the realizability of subsequent policy models, leading to fluctuations in performance across iterations. Our findings highlight the need for more adaptable algorithms that can leverage the benefits of regression oracles without introducing instability in policy performance over time.
- Abstract(参考訳): 意思決定システムにおける一様ランダムな探索は、監督による非政治的な学習を支援するが、多くのアプリケーションにとって現実的ではない。
逆に、一様でない探索は即時的なパフォーマンスが向上するが、非政治的な学習のサポートは欠如している。
近年の研究では、非一様探索と教師あり学習を組み合わせることで、回帰オラクルがこのギャップを埋めることができることが示唆されている。
本稿では,これらのアプローチを,Empirical Risk Minimization (ERM) フレームワークの下で,バッチログの遅延フィードバック,短期記憶,動的行動空間を特徴とする大規模グローバル決済プロセッサであるAdyenにおける実世界の産業状況下で分析する。
解析の結果,回帰オラクルは性能を著しく向上させるが,アルゴリズムの厳密な仮定による問題が発生することがわかった。
具体的には、政策が改善するにつれて、報酬分布の変化とトレーニングデータにおけるクラス不均衡の増加により、その後の世代は悪化する可能性があることを観察する。
この劣化はトレーニングデータの他の面でも改善され、連続したポリシーイテレーションのパフォーマンスが低下する。
さらに、回帰オラクルの長期的影響を探求し、潜在的な「振動効果」を同定する。
この効果は、回帰オラクルが確率推定とその後のポリシーモデルの実現可能性に影響し、繰り返しのパフォーマンスが変動するときに生じる。
我々の発見は、時間とともにポリシーパフォーマンスの不安定性を導入することなく、回帰オラクルの利点を活用できる、より適応可能なアルゴリズムの必要性を強調した。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Progress or Regress? Self-Improvement Reversal in Post-training [26.051637877066327]
本稿では,自己改善のためのポストトレーニングパラダイムの根底にある拡張を精査する包括的評価フレームワークを提案する。
ベンチマークで改善されたパフォーマンスを示すモデルは、パラドックス的により広範で必須の能力の低下を示す。
これらの結果から, ポストトレーニングによる現在の自己改善実践は, より複雑な問題に対処するためのモデルの装備に不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-06T09:07:11Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Lifelong Hyper-Policy Optimization with Multiple Importance Sampling
Regularization [40.17392342387002]
本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。
この超政治は、推定される将来のパフォーマンスを最大化し、重要サンプリングによって過去のデータを効率的に再利用するように訓練されている。
実環境において、最先端のアルゴリズムと比較して、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-12-13T13:09:49Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - On the Loss Landscape of Adversarial Training: Identifying Challenges
and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。
曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文 参考訳(メタデータ) (2020-06-15T13:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。