論文の概要: Deep Learning Algorithms for Mean Field Optimal Stopping in Finite Space and Discrete Time
- arxiv url: http://arxiv.org/abs/2410.08850v1
- Date: Fri, 11 Oct 2024 14:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:35:51.523430
- Title: Deep Learning Algorithms for Mean Field Optimal Stopping in Finite Space and Discrete Time
- Title(参考訳): 有限空間と離散時間における平均場最適停止のためのディープラーニングアルゴリズム
- Authors: Lorenzo Magnino, Yuchen Zhu, Mathieu Laurière,
- Abstract要約: 本研究は, エージェント数が無限に近づくにつれて得られる平均場最適停止(MFOS)問題を考察する。
本研究では,2つの深層学習手法を提案する。一方は最適決定を学習するために全軌道をシミュレートし,他方は逆方向誘導でDPPを利用する。
空間次元最大300の6つの異なる問題に対する数値実験により,これらの手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 3.350071725971209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal stopping is a fundamental problem in optimization that has found applications in risk management, finance, economics, and recently in the fields of computer science. We extend the standard framework to a multi-agent setting, named multi-agent optimal stopping (MAOS), where a group of agents cooperatively solves finite-space, discrete-time optimal stopping problems. Solving the finite-agent case is computationally prohibitive when the number of agents is very large, so this work studies the mean field optimal stopping (MFOS) problem, obtained as the number of agents approaches infinity. We prove that MFOS provides a good approximate solution to MAOS. We also prove a dynamic programming principle (DPP), based on the theory of mean field control. We then propose two deep learning methods: one simulates full trajectories to learn optimal decisions, whereas the other leverages DPP with backward induction; both methods train neural networks for the optimal stopping decisions. We demonstrate the effectiveness of these approaches through numerical experiments on 6 different problems in spatial dimension up to 300. To the best of our knowledge, this is the first work to study MFOS in finite space and discrete time, and to propose efficient and scalable computational methods for this type of problem.
- Abstract(参考訳): 最適停止は、リスク管理、金融、経済学、そして最近コンピュータ科学の分野における応用を見出した最適化の基本的な問題である。
エージェント群が協調して有限空間の離散時間最適停止問題を解き、マルチエージェント最適停止(MAOS)と呼ばれるマルチエージェント設定に拡張する。
有限エージェントの場合の解法は,エージェント数が非常に大きい場合に計算的に禁止されるので,エージェント数が無限に近づくにつれて得られる平均フィールド最適停止(MFOS)問題を研究する。
MFOSがMAOSによく近似したソリューションであることを示す。
また,平均場制御理論に基づく動的プログラミング原理(DPP)を実証する。
次に,2つのディープラーニング手法を提案する。1つは最適決定を学習するために完全な軌道をシミュレートし,もう1つは後方誘導でDPPを活用する。
空間次元最大300の6つの異なる問題に対する数値実験により,これらの手法の有効性を実証する。
我々の知る限りでは、これはMFOSを有限空間と離散時間で研究し、この種の問題に対して効率的でスケーラブルな計算手法を提案する最初の研究である。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Data-Efficient Interactive Multi-Objective Optimization Using ParEGO [6.042269506496206]
多目的最適化は、競合する目的間の最適なトレードオフを提供する非支配的なソリューションの集合を特定することを目的としている。
実践的な応用では、意思決定者(DM)は実装すべき好みに合わせて単一のソリューションを選択する。
そこで本稿では,パレートフロントの最も好まれる領域を,高コストで評価できる2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T15:55:51Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。
我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。
提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文 参考訳(メタデータ) (2022-05-05T14:25:54Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - POMDPs in Continuous Time and Discrete Spaces [28.463792234064805]
このような離散状態と行動空間系における最適決定の問題は、部分的可観測性の下で考慮する。
連続時間部分観測可能なマルコフ決定過程(POMDP)の数学的記述を与える。
本稿では,価値関数の近似を学習することで,決定問題をオフラインで解く手法と,深層強化学習を用いた信念空間の解を提供するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-02T14:04:32Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - sKPNSGA-II: Knee point based MOEA with self-adaptive angle for Mission
Planning Problems [2.191505742658975]
いくつかの問題には、多くの非支配的な解をもたらす多くの目的がある。
本稿では,最も重要な解を得るために設計された新しいアルゴリズムを提案する。
このアルゴリズムは無人航空機(UAV)ミッション計画問題における実世界の応用に応用されている。
論文 参考訳(メタデータ) (2020-02-20T17:07:08Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。