論文の概要: Optimal Control of Agent-Based Dynamics under Deep Galerkin Feedback Laws
- arxiv url: http://arxiv.org/abs/2406.09141v1
- Date: Thu, 13 Jun 2024 14:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:34:25.034545
- Title: Optimal Control of Agent-Based Dynamics under Deep Galerkin Feedback Laws
- Title(参考訳): ディープ・ガレルキンフィードバック法の下でのエージェントベースダイナミクスの最適制御
- Authors: Frederik Kelbel,
- Abstract要約: 本稿では,Deep Galerkin法が適用すべきサンプリング問題について検討する。
高分散政策近似の症状を軽減するためのドリフト緩和に基づくサンプリング手法を提案する。
結果として、手動で最適化された制御関数よりも大幅なコスト削減がもたらされ、線形量子レギュレータの問題が改善された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ever since the concepts of dynamic programming were introduced, one of the most difficult challenges has been to adequately address high-dimensional control problems. With growing dimensionality, the utilisation of Deep Neural Networks promises to circumvent the issue of an otherwise exponentially increasing complexity. The paper specifically investigates the sampling issues the Deep Galerkin Method is subjected to. It proposes a drift relaxation-based sampling approach to alleviate the symptoms of high-variance policy approximations. This is validated on mean-field control problems; namely, the variations of the opinion dynamics presented by the Sznajd and the Hegselmann-Krause model. The resulting policies induce a significant cost reduction over manually optimised control functions and show improvements on the Linear-Quadratic Regulator problem over the Deep FBSDE approach.
- Abstract(参考訳): 動的プログラミングの概念が導入されて以来、高次元制御問題に適切に対処することが最も難しい課題の1つとなっている。
次元の増大に伴い、ディープニューラルネットワークの利用は、それ以外は指数関数的に増加する複雑性の問題を回避することを約束する。
本稿では,Deep Galerkin法が適用すべきサンプリング問題を具体的に検討する。
高分散政策近似の症状を軽減するためのドリフト緩和に基づくサンプリング手法を提案する。
これは平均場制御問題、すなわち、Sznajd と Hegselmann-Krause モデルによって提示される意見力学のバリエーションで検証される。
結果として、手動で最適化された制御関数よりも大幅なコスト削減がもたらされ、Deep FBSDEアプローチよりも線形量子レギュレータの問題が改善された。
関連論文リスト
- Data-driven rules for multidimensional reflection problems [1.0742675209112622]
反射型制御を伴う可逆拡散に対する多変量特異制御問題について検討する。
与えられた拡散力学に対して、最適な領域が強い星型であると仮定し、ポリトープ近似に基づく勾配降下アルゴリズムを提案し、コスト最小化領域を数値的に決定する。
最後に,制御器に拡散力学が未知な場合のデータ駆動型解について検討する。
論文 参考訳(メタデータ) (2023-11-11T18:36:17Z) - An Unsupervised Deep Learning Approach for the Wave Equation Inverse
Problem [12.676629870617337]
フルウェーブフォーム・インバージョン(FWI)は、高分解能地下物理パラメータを推定する強力な物理画像技術である。
観測の限界、限られたショットや受信機、ランダムノイズなどにより、従来の逆転法は多くの課題に直面している。
物理速度パラメータを正確に再構成することを目的とした教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T08:39:33Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Reimagining Demand-Side Management with Mean Field Learning [0.0]
本稿では,DSMの新しい手法,特に所望の消費信号に従うために大量の電気機器を制御する問題を提案する。
我々は,凸関数とリプシッツ関数の理論的保証を提供する新しいアルゴリズムMD-MFCを開発した。
論文 参考訳(メタデータ) (2023-02-16T10:15:08Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Adversarially Regularized Policy Learning Guided by Trajectory
Optimization [31.122262331980153]
本稿では,スムーズな制御ポリシーを学習するために,trajeCtory optimizAtion (VERONICA) でガイドされた適応正規化 pOlicy learNIng を提案する。
提案手法は,ニューラルポリシー学習のサンプル効率を向上し,各種障害に対するポリシーの堅牢性を高める。
論文 参考訳(メタデータ) (2021-09-16T00:02:11Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。