論文の概要: Taming Lagrangian Chaos with Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.09612v1
- Date: Mon, 19 Dec 2022 16:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 19:04:46.038891
- Title: Taming Lagrangian Chaos with Multi-Objective Reinforcement Learning
- Title(参考訳): 多目的強化学習によるラグランジアンカオスの改ざん
- Authors: Chiara Calascibetta, Luca Biferale, Francesco Borra, Antonio Celani
and Massimo Cencini
- Abstract要約: 2次元複素流中における2つの活性粒子の問題は、対の分散速度とエネルギー消費の両方を最小化する多目的目標を持つ。
本稿では,多目的強化学習(MORL)を用いて,スキャラライズ手法とQ-ラーニングアルゴリズムを組み合わせることで,様々な水泳速度を持つラグランジアンドリフトの課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of two active particles in 2D complex flows with the
multi-objective goals of minimizing both the dispersion rate and the energy
consumption of the pair. We approach the problem by means of Multi Objective
Reinforcement Learning (MORL), combining scalarization techniques together with
a Q-learning algorithm, for Lagrangian drifters that have variable swimming
velocity. We show that MORL is able to find a set of trade-off solutions
forming an optimal Pareto frontier. As a benchmark, we show that a set of
heuristic strategies are dominated by the MORL solutions. We consider the
situation in which the agents cannot update their control variables
continuously, but only after a discrete (decision) time, $\tau$. We show that
there is a range of decision times, in between the Lyapunov time and the
continuous updating limit, where Reinforcement Learning finds strategies that
significantly improve over heuristics. In particular, we discuss how large
decision times require enhanced knowledge of the flow, whereas for smaller
$\tau$ all a priori heuristic strategies become Pareto optimal.
- Abstract(参考訳): 2次元複素流中における2つの活性粒子の問題は、対の分散速度とエネルギー消費の両方を最小化する多目的目標を持つ。
本研究では,多目的強化学習(morl)を用いて,スカラー化手法とq-learningアルゴリズムを組み合わせることで,水泳速度の変動するラグランジアンドリフトラーにアプローチする。
我々は、MORLが最適パレートフロンティアを形成する一連のトレードオフソリューションを見つけることができることを示す。
ベンチマークの結果,一連のヒューリスティック戦略がMORLソリューションに支配されていることがわかった。
エージェントが制御変数を継続的に更新できない状況は、離散的な(決定的な)時間、$\tau$の後にのみ考慮する。
lyapunov時間と連続更新限界の間には,強化学習がヒューリスティックよりも大幅に改善する戦略を見出すという,さまざまな意思決定時間が存在する。
特に、意思決定時間がフローの知識の強化を必要とするかについて議論する一方、より小さい$\tau$ では、事前のヒューリスティック戦略がパレート最適となる。
関連論文リスト
- FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Learning Lagrangian Multipliers for the Travelling Salesman Problem [12.968608204035611]
本稿では,グラフニューラルネットワークの能力を活用して問題構造を利用する,革新的な教師なし学習手法を提案する。
この手法を、旅行セールスマン問題に対する有名なヘルド・カルプ・ラグランジアン緩和に適用する。
実現可能な解を見つけることに焦点を当てた既存の文献の多くとは対照的に、我々のアプローチは両面で動作し、学習が最適性の証明を加速できることを示す。
論文 参考訳(メタデータ) (2023-12-22T17:09:34Z) - Three-Way Trade-Off in Multi-Objective Learning: Optimization,
Generalization and Conflict-Avoidance [47.42067405054353]
MOL(Multi-objective Learning)は、機械学習の新興問題においてしばしば発生する問題である。
MOLにおける重要な課題の1つは、反復最適化プロセスにおける異なる目的間の潜在的な衝突である。
近年,MGDAやその変種など,MOLの動的重み付けアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2023-05-31T17:31:56Z) - Exploring and Exploiting Decision Boundary Dynamics for Adversarial
Robustness [59.948529997062586]
既存の堅牢なトレーニング手法が、トレーニング中の各弱点点のマージンを効果的に増加させるかどうかは不明である。
本稿では,各点に対する決定境界の相対速度を定量化する連続時間フレームワークを提案する。
より小さなマージンの増大を優先する運動に決定境界が関与することを奨励するDyART(Dynamics-Aware Robust Training)を提案する。
論文 参考訳(メタデータ) (2023-02-06T18:54:58Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Adversarially Robust Learning for Security-Constrained Optimal Power
Flow [55.816266355623085]
我々は、N-kセキュリティ制約付き最適電力流(SCOPF)の課題に取り組む。
N-k SCOPFは電力網の運用における中核的な問題である。
N-k SCOPF を極小最適化問題とみなす。
論文 参考訳(メタデータ) (2021-11-12T22:08:10Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Q-Learning Lagrange Policies for Multi-Action Restless Bandits [35.022322303796216]
RMAB(Multi-action restless multi-armed bandits)は、N$独立プロセスを管理する制約付きリソース割り当てのための強力なフレームワークである。
我々は,ラグランジアン緩和とQラーニングを組み合わせて,Multi-action RMABをオンラインで学習するための最初のアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-06-22T19:20:09Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。