Fugu-MT 論文翻訳(概要): Wasserstein Formulation of Reinforcement Learning. An Optimal Transport Perspective on Policy Optimization

論文の概要: Wasserstein Formulation of Reinforcement Learning. An Optimal Transport Perspective on Policy Optimization

arxiv url: http://arxiv.org/abs/2604.14765v1
Date: Thu, 16 Apr 2026 08:24:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.800876
Title: Wasserstein Formulation of Reinforcement Learning. An Optimal Transport Perspective on Policy Optimization
Title（参考訳）: 政策最適化における最適輸送視点
Authors: Mathias Dus,
Abstract要約: 本稿では,政策をワッサーシュタインの行動確率空間へのマップとして見る強化学習の枠組みを提案する。高次元問題に対しては、ニューラルネットワークを用いてポリシーをパラメータ化し、コストのエルゴード近似に基づいて最適化する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a geometric framework for Reinforcement Learning (RL) that views policies as maps into the Wasserstein space of action probabilities. First, we define a Riemannian structure induced by stationary distributions, proving its existence in a general context. We then define the tangent space of policies and characterize the geodesics, specifically addressing the measurability of vector fields mapped from the state space to the tangent space of probability measures over the action space. Next, we formulate a general RL optimization problem and construct a gradient flow using Otto's calculus. We compute the gradient and the Hessian of the energy, providing a formal second-order analysis. Finally, we illustrate the method with numerical examples for low-dimensional problems, computing the gradient directly from our theoretical formalism. For high-dimensional problems, we parameterize the policy using a neural network and optimize it based on an ergodic approximation of the cost.
Abstract（参考訳）: 本稿では,政策をワッサーシュタインの行動確率空間への写像として捉えた強化学習(RL)の幾何学的枠組みを提案する。まず、定常分布によって誘導されるリーマン構造を定義し、その存在を一般的な文脈で証明する。次に、政策の接空間を定義し、測地学を特徴づけ、特に状態空間から行動空間上の確率測度の接空間にマップされたベクトル場の可測性に対処する。次に、一般RL最適化問題を定式化し、オットーの計算を用いて勾配流を構築する。エネルギーの勾配とヘシアンを計算し、公式な2階解析を提供する。最後に、この手法を低次元問題に対する数値的な例で説明し、我々の理論形式論から勾配を直接計算する。高次元問題に対しては、ニューラルネットワークを用いてポリシーをパラメータ化し、コストのエルゴード近似に基づいて最適化する。

関連論文リスト

Static and Dynamic Approaches to Computing Barycenters of Probability Measures on Graphs [3.702642055407484]
最適輸送問題は、測度の重み付き平均(バリ中心)の定義につながる確率測度の幾何学を定義する。ここでは,古典的最適輸送幾何が縮退するグラフ上で支援された測度に対して,偏心符号化モデルを実装する。確率単純性に関する本質的な勾配降下は、グラフ上で支持される測度を合成および解析するためのコヒーレントな枠組みを提供すると結論付けている。
論文参考訳（メタデータ） (2026-03-27T19:29:28Z)
Riemannian gradient descent for Hartree-Fock theory [0.0]
本稿では、ソボレフ空間$H1$で直接定式化されたHartree-Fock理論の最適化フレームワークを提案する。ユークリッド勾配、リーマン勾配、接空間射影、および簡約表現が導出される。提案した定式化は、電子構造最適化における幾何学的に一貫性があり、離散化に依存しない視点を提供する。
論文参考訳（メタデータ） (2026-03-16T19:58:42Z)
Neural Local Wasserstein Regression [16.52489456261937]
本研究では,予測値と応答値の両方が確率測度である分布分布分布分布回帰の推定問題について検討する。既存のアプローチは通常、大域的最適輸送写像や接空間線型化に依存している。ワッサーシュタイン空間の局所的に定義された輸送写像を通して回帰をモデル化するフレキシブルな非パラメトリックフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-13T21:54:18Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Warped geometric information on the optimisation of Euclidean functions [43.43598316339732]
我々は、潜在的に高次元ユークリッド空間で定義される実数値函数の最適化を考える。函数の最適度は、曲がった計量を持つ多様体に沿う。提案アルゴリズムは測地学の3次近似を用いており、標準ユークリッド勾配法よりも優れている傾向にある。
論文参考訳（メタデータ） (2023-08-16T12:08:50Z)
Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文参考訳（メタデータ） (2023-06-29T01:20:44Z)
Deep Metric Tensor Regularized Policy Gradient [4.982806898121435]
政策勾配アルゴリズムは、深層強化学習技術の重要なファミリーである。我々は,政策勾配に関するヘッセン情報を適切に活用し,制御することで,政策勾配アルゴリズムの性能を著しく向上させることができると信じている。
論文参考訳（メタデータ） (2023-05-18T14:50:00Z)
Learning High Dimensional Wasserstein Geodesics [55.086626708837635]
高次元の2つの確率分布の間のワッサーシュタイン測地線を計算するための新しい定式化と学習戦略を提案する。ラグランジュ乗算器の手法を最適輸送(OT)問題の動的定式化に適用することにより、サドル点がワッサーシュタイン測地線であるミニマックス問題を導出する。次に、深層ニューラルネットワークによる関数のパラメータ化を行い、トレーニングのためのサンプルベースの双方向学習アルゴリズムを設計する。
論文参考訳（メタデータ） (2021-02-05T04:25:28Z)
Continuous Wasserstein-2 Barycenter Estimation without Minimax Optimization [94.18714844247766]
ワッサーシュタイン・バリセンターは、最適輸送に基づく確率測度の重み付き平均の幾何学的概念を提供する。本稿では,Wasserstein-2 バリセンタのサンプルアクセスを演算するスケーラブルなアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-02T21:01:13Z)
On Projection Robust Optimal Transport: Sample Complexity and Model Misspecification [101.0377583883137]
射影ロバスト(PR)OTは、2つの測度の間のOTコストを最大化するために、射影可能な$k$次元部分空間を選択する。私たちの最初の貢献は、PRワッサーシュタイン距離のいくつかの基本的な統計的性質を確立することである。次に、部分空間を最適化するのではなく平均化することにより、PRW距離の代替として積分PRワッサーシュタイン距離(IPRW)を提案する。
論文参考訳（メタデータ） (2020-06-22T14:35:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。