論文の概要: A Control-Theoretic Approach to Dynamic Payment Routing for Success Rate Optimization
- arxiv url: http://arxiv.org/abs/2510.16735v1
- Date: Sun, 19 Oct 2025 07:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.119109
- Title: A Control-Theoretic Approach to Dynamic Payment Routing for Success Rate Optimization
- Title(参考訳): 成功率最適化のための動的支払ルーティングの制御-理論的アプローチ
- Authors: Aniket Agrawal, Harsharanga Patil,
- Abstract要約: 本稿では動的支払ルーティングのための制御理論フレームワークを提案する。
トランザクションの成功率を最大化するために、JUSPAYのPayment Orchestrator内に実装されている。
その結果、従来のルールベースのルーティングよりも最大1.15%の成功率が改善された。
- 参考スコア(独自算出の注目度): 0.34376560669160394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a control-theoretic framework for dynamic payment routing, implemented within JUSPAY's Payment Orchestrator to maximize transaction success rate. The routing system is modeled as a closed-loop feedback controller continuously sensing gateway performance, computing corrective actions, and dynamically routes transactions across gateway to ensure operational resilience. The system leverages concepts from control theory, reinforcement learning, and multi-armed bandit optimization to achieve both short-term responsiveness and long-term stability. Rather than relying on explicit PID regulation, the framework applies generalized feedback-based adaptation, ensuring that corrective actions remain proportional to observed performance deviations and the computed gateway score gradually converges toward the success rate. This hybrid approach unifies control theory and adaptive decision systems, enabling self-regulating transaction routing that dampens instability, and improves reliability. Live production results show an improvement of up to 1.15% in success rate over traditional rule-based routing, demonstrating the effectiveness of feedback-based control in payment systems.
- Abstract(参考訳): 本稿では、トランザクション成功率を最大化するために、JUSPAYのPayment Orchestrator内に実装された動的支払ルーティングのための制御理論フレームワークを提案する。
ルーティングシステムは、ゲートウェイのパフォーマンスを継続的に検出し、修正アクションを計算し、ゲートウェイをまたいでトランザクションを動的にルーティングすることで、運用上のレジリエンスを確保するために、クローズドループフィードバックコントローラとしてモデル化される。
このシステムは、制御理論、強化学習、マルチアームバンディット最適化の概念を利用して、短期的応答性と長期的安定性を実現する。
このフレームワークは、明示的なPID規制に頼るのではなく、一般化されたフィードバックベースの適応を適用し、観測されたパフォーマンスのずれに比例した修正動作が維持され、計算されたゲートウェイスコアは徐々に成功率に向かって収束する。
このハイブリッドアプローチは制御理論と適応決定システムを統一し、不安定性を阻害する自己制御トランザクションルーティングを可能にし、信頼性を向上させる。
ライブ生産の結果は、従来のルールベースのルーティングよりも最大1.15%の成功率の向上を示し、支払いシステムにおけるフィードバックベースの制御の有効性を実証している。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文 参考訳(メタデータ) (2025-09-02T03:34:36Z) - Neural Network-assisted Interval Reachability for Systems with Control Barrier Function-Based Safe Controllers [1.77513002450736]
制御バリア関数(CBF)は、動的システムのための最適化ベースのコントローラとフィルタの設計に広く利用されている。
CBFベースのコントローラは安全保証を提供するが、システムの性能を損なう可能性がある。
最適化制御器を用いたシステムの性能検証のための計算効率の良い区間到達性手法を提案する。
論文 参考訳(メタデータ) (2025-04-11T04:14:55Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文 参考訳(メタデータ) (2023-11-15T09:50:54Z) - Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System [2.0429716172112617]
本稿では,政策最適化アプローチとネット力学シミュレーションを統合した強化学習フレームワークを提案する。
状態遷移モデルは、状態推定と起動動作に合成不確実性を組み込むために検討される。
トレーニングされたポリシーは、個々のシナリオ上で実行される信頼性ベースの最適化で得られたものに近いキャプチャパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-11T20:09:05Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Optimal Energy Shaping via Neural Approximators [16.879710744315233]
古典的受動性に基づく制御手法の強化として,最適エネルギー整形を導入する。
パッシブコントロールフレームワークのパフォーマンスを調整するための体系的なアプローチはまだ開発されていない。
論文 参考訳(メタデータ) (2021-01-14T10:25:58Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。