論文の概要: Learning to Stop: Deep Learning for Mean Field Optimal Stopping
- arxiv url: http://arxiv.org/abs/2410.08850v2
- Date: Mon, 09 Jun 2025 16:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:09.130558
- Title: Learning to Stop: Deep Learning for Mean Field Optimal Stopping
- Title(参考訳): 停止する学習: 平均的フィールド最適停止のためのディープラーニング
- Authors: Lorenzo Magnino, Yuchen Zhu, Mathieu Laurière,
- Abstract要約: リスク管理、ファイナンス、ロボティクス、機械学習の応用において、最適停止は、最適化における根本的な問題である。
標準フレームワークをマルチエージェント設定に拡張し、マルチエージェント最適停止(MAOS)と名付け、エージェントが有限空間離散時間環境で最適な停止決定を行う。
エージェントの数がとても多いため,MAOSの解法は計算的に禁止されるので,エージェントの数が無限大になる傾向にあるため,平均フィールド最適停止問題について検討する。
- 参考スコア(独自算出の注目度): 3.350071725971209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal stopping is a fundamental problem in optimization with applications in risk management, finance, robotics, and machine learning. We extend the standard framework to a multi-agent setting, named multi-agent optimal stopping (MAOS), where agents cooperate to make optimal stopping decisions in a finite-space, discrete-time environment. Since solving MAOS becomes computationally prohibitive as the number of agents is very large, we study the mean-field optimal stopping (MFOS) problem, obtained as the number of agents tends to infinity. We establish that MFOS provides a good approximation to MAOS and prove a dynamic programming principle (DPP) based on mean-field control theory. We then propose two deep learning approaches: one that learns optimal stopping decisions by simulating full trajectories and another that leverages the DPP to compute the value function and to learn the optimal stopping rule using backward induction. Both methods train neural networks to approximate optimal stopping policies. We demonstrate the effectiveness and the scalability of our work through numerical experiments on 6 different problems in spatial dimension up to 300. To the best of our knowledge, this is the first work to formalize and computationally solve MFOS in discrete time and finite space, opening new directions for scalable MAOS methods.
- Abstract(参考訳): リスク管理、ファイナンス、ロボティクス、機械学習の応用において、最適停止は、最適化における根本的な問題である。
標準フレームワークをマルチエージェント設定に拡張し、マルチエージェント最適停止(MAOS)と名付け、エージェントが有限空間離散時間環境で最適な停止決定を行う。
エージェント数が非常に大きいため,MAOSの解法は計算的に禁止されるため,エージェント数が無限大となるにつれて得られる平均場最適停止(MFOS)問題について検討する。
MFOSはMAOSに優れた近似を提供し、平均場制御理論に基づく動的プログラミング原理(DPP)を証明する。
次に、全軌道をシミュレートして最適な停止決定を学習する手法と、DPPを利用して値関数を計算し、後方帰納法を用いて最適な停止規則を学習する手法を提案する。
どちらの手法も、最適な停止ポリシーを近似するためにニューラルネットワークを訓練する。
我々は,空間次元最大300の6つの異なる問題に対する数値実験を通じて,作業の有効性とスケーラビリティを実証する。
我々の知る限り、これはMFOSを離散時間と有限空間で形式化し、計算的に解く最初の試みであり、スケーラブルなMAOS手法のための新しい方向を開く。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Scalable Mechanism Design for Multi-Agent Path Finding [87.40027406028425]
MAPF (Multi-Agent Path Finding) は、複数のエージェントが同時に移動し、与えられた目標地点に向かって共有領域を通って衝突しない経路を決定する。
最適解を見つけることは、しばしば計算不可能であり、近似的な準最適アルゴリズムを用いることが不可欠である。
本稿では、MAPFのスケーラブルな機構設計の問題を紹介し、MAPFアルゴリズムを近似した3つの戦略防御機構を提案する。
論文 参考訳(メタデータ) (2024-01-30T14:26:04Z) - Data-Efficient Interactive Multi-Objective Optimization Using ParEGO [6.042269506496206]
多目的最適化は、競合する目的間の最適なトレードオフを提供する非支配的なソリューションの集合を特定することを目的としている。
実践的な応用では、意思決定者(DM)は実装すべき好みに合わせて単一のソリューションを選択する。
そこで本稿では,パレートフロントの最も好まれる領域を,高コストで評価できる2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T15:55:51Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。
我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。
提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文 参考訳(メタデータ) (2022-05-05T14:25:54Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - POMDPs in Continuous Time and Discrete Spaces [28.463792234064805]
このような離散状態と行動空間系における最適決定の問題は、部分的可観測性の下で考慮する。
連続時間部分観測可能なマルコフ決定過程(POMDP)の数学的記述を与える。
本稿では,価値関数の近似を学習することで,決定問題をオフラインで解く手法と,深層強化学習を用いた信念空間の解を提供するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-02T14:04:32Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - sKPNSGA-II: Knee point based MOEA with self-adaptive angle for Mission
Planning Problems [2.191505742658975]
いくつかの問題には、多くの非支配的な解をもたらす多くの目的がある。
本稿では,最も重要な解を得るために設計された新しいアルゴリズムを提案する。
このアルゴリズムは無人航空機(UAV)ミッション計画問題における実世界の応用に応用されている。
論文 参考訳(メタデータ) (2020-02-20T17:07:08Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。