論文の概要: Scalable Bi-causal Optimal Transport via KL Relaxation and Policy Gradients
- arxiv url: http://arxiv.org/abs/2605.17271v1
- Date: Sun, 17 May 2026 05:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.82163
- Title: Scalable Bi-causal Optimal Transport via KL Relaxation and Policy Gradients
- Title(参考訳): KL緩和と政策勾配によるスケーラブルな両因果最適輸送
- Authors: Haoyang Cao, Jesse Hoekstra, Renyuan Xu, Yumin Xu, Ruixun Zhang,
- Abstract要約: 双方向最適輸送(bi-causal optimal transport、OT)は、予期しない情報制約下でのプロセスの比較と結合のためのフレームワークである。
両因果OTに対するスケーラブルな計算手法を開発し、予期しない情報制約が必須となる環境で適用性を広げる。
- 参考スコア(独自算出の注目度): 5.492352780011131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bi-causal optimal transport (OT) is a natural framework for comparing and coupling stochastic processes under nonanticipative information constraints, with important applications in robust finance, sequential uncertainty quantification, and multistage stochastic optimization. In particular, a learned bi-causal coupling naturally serves as a simulator for generating joint sample paths that respect both prescribed marginal laws and the underlying information flow. Its practical use, however, is limited by the computational difficulty of enforcing bi-causal coupling constraints over path space, especially for continuous distributions and long horizons. We develop a scalable stochastic-optimization framework for computing bi-causal OT couplings under general marginals. Our approach introduces a Kullback--Leibler (KL)-penalized relaxation that replaces hard marginal constraints with tractable divergence penalties while preserving the recursive structure of the problem. We establish dynamic programming principles for both the original and relaxed formulations, prove that the relaxed problem converges to the original bi-causal OT problem as the penalty grows, and derive explicit policy-gradient representations for the relaxed objective. Building on these results, we propose a practical policy-gradient algorithm with unbiased mini-batch estimators, variance reduction, and nonasymptotic regret guarantees. Numerical experiments show that the method accurately captures marginal laws and temporal dependence, and performs well in applications including robust subhedging and time series statistical downscaling. These results provide a scalable computational approach to bi-causal OT and broaden its applicability in settings where nonanticipative information constraints are essential.
- Abstract(参考訳): Bi-causal optimal transport (OT) は、確率過程を非予測情報制約下で比較・結合するための自然なフレームワークであり、ロバストファイナンス、シーケンシャル不確実性定量化、多段階確率最適化において重要な応用がある。
特に、学習された両因果結合は、所定の限界法則と基礎となる情報の流れの両方を尊重する合同サンプルパスを生成するシミュレータとして自然に機能する。
しかし、その実用性は、特に連続分布や長い地平線に対して、経路空間上の両因果結合制約を強制する計算上の困難さによって制限されている。
両因果OT結合を一般の限界下で計算するためのスケーラブルな確率最適化フレームワークを開発した。
提案手法では, 厳密な限界制約をトラクタブルな分散ペナルティに置き換え, 再帰的構造を保ちながら, クルバック・リーブラー法(KL法)を緩和する。
我々は、元の定式化と緩和された定式化の両方に対して動的プログラミングの原理を確立し、緩和された問題はペナルティが増大するにつれて元の両因果OT問題に収束し、緩和された目的に対する明示的なポリシー勾配表現を導出する。
これらの結果に基づいて、偏りのないミニバッチ推定器、分散低減、および漸近的後悔の保証を備えた実用的なポリシー勾配アルゴリズムを提案する。
数値実験により,この手法は限界法則と時間依存性を正確に把握し,ロバストなサブヘッジや時系列統計的ダウンスケーリングなどのアプリケーションでよく機能することが示された。
これらの結果は、二因果OTに対するスケーラブルな計算手法を提供し、予期しない情報制約が不可欠である設定において適用性を広げる。
関連論文リスト
- Bridging the Gap Between Average and Discounted TD Learning [14.556544278062793]
平均回帰設定において,政策評価のために明示的に設計された新しいアルゴリズムを提案する。
提案手法は, 適切に定義されたベルマン方程式の一意解への収束を保証することによって, 従来の限界を克服する。
論文 参考訳(メタデータ) (2026-05-03T23:54:36Z) - Schrödinger bridge for generative AI: Soft-constrained formulation and convergence analysis [6.584866740785309]
いわゆるソフト拘束型シュリンガー橋問題(SCSBP)について検討する。
ペナルティが大きくなるにつれて、制御関数と値関数の両方が線形速度で古典的SBPのものと収束することが証明される。
これらの結果から,ソフト拘束ブリッジの定量的収束保証が得られた。
論文 参考訳(メタデータ) (2025-10-13T18:29:15Z) - Nonconvex Optimization Framework for Group-Sparse Feedback Linear-Quadratic Optimal Control: Non-Penalty Approach [3.585860184121598]
固定通信(DFT-LQ)を用いた分散線形四元数問題と下位次次次フィードバック問題について検討した。
論文 参考訳(メタデータ) (2025-07-26T09:50:21Z) - Single-loop Algorithms for Stochastic Non-convex Optimization with Weakly-Convex Constraints [49.76332265680669]
本稿では、目的関数と制約関数の両方が弱凸である問題の重要な部分集合について検討する。
既存の手法では、収束速度の遅さや二重ループ設計への依存など、しばしば制限に直面している。
これらの課題を克服するために,新しい単一ループペナルティに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:48Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。