論文の概要: Taming Lagrangian Chaos with Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.09612v1
- Date: Mon, 19 Dec 2022 16:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 19:04:46.038891
- Title: Taming Lagrangian Chaos with Multi-Objective Reinforcement Learning
- Title(参考訳): 多目的強化学習によるラグランジアンカオスの改ざん
- Authors: Chiara Calascibetta, Luca Biferale, Francesco Borra, Antonio Celani
and Massimo Cencini
- Abstract要約: 2次元複素流中における2つの活性粒子の問題は、対の分散速度とエネルギー消費の両方を最小化する多目的目標を持つ。
本稿では,多目的強化学習(MORL)を用いて,スキャラライズ手法とQ-ラーニングアルゴリズムを組み合わせることで,様々な水泳速度を持つラグランジアンドリフトの課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of two active particles in 2D complex flows with the
multi-objective goals of minimizing both the dispersion rate and the energy
consumption of the pair. We approach the problem by means of Multi Objective
Reinforcement Learning (MORL), combining scalarization techniques together with
a Q-learning algorithm, for Lagrangian drifters that have variable swimming
velocity. We show that MORL is able to find a set of trade-off solutions
forming an optimal Pareto frontier. As a benchmark, we show that a set of
heuristic strategies are dominated by the MORL solutions. We consider the
situation in which the agents cannot update their control variables
continuously, but only after a discrete (decision) time, $\tau$. We show that
there is a range of decision times, in between the Lyapunov time and the
continuous updating limit, where Reinforcement Learning finds strategies that
significantly improve over heuristics. In particular, we discuss how large
decision times require enhanced knowledge of the flow, whereas for smaller
$\tau$ all a priori heuristic strategies become Pareto optimal.
- Abstract(参考訳): 2次元複素流中における2つの活性粒子の問題は、対の分散速度とエネルギー消費の両方を最小化する多目的目標を持つ。
本研究では,多目的強化学習(morl)を用いて,スカラー化手法とq-learningアルゴリズムを組み合わせることで,水泳速度の変動するラグランジアンドリフトラーにアプローチする。
我々は、MORLが最適パレートフロンティアを形成する一連のトレードオフソリューションを見つけることができることを示す。
ベンチマークの結果,一連のヒューリスティック戦略がMORLソリューションに支配されていることがわかった。
エージェントが制御変数を継続的に更新できない状況は、離散的な(決定的な)時間、$\tau$の後にのみ考慮する。
lyapunov時間と連続更新限界の間には,強化学習がヒューリスティックよりも大幅に改善する戦略を見出すという,さまざまな意思決定時間が存在する。
特に、意思決定時間がフローの知識の強化を必要とするかについて議論する一方、より小さい$\tau$ では、事前のヒューリスティック戦略がパレート最適となる。
関連論文リスト
- Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - M$^{2}$M: Learning controllable Multi of experts and multi-scale operators are the Partial Differential Equations need [43.534771810528305]
本稿では,PDEを効率的にシミュレートし,学習するためのマルチスケール・マルチエキスパート(M$2$M)ニューラル演算子のフレームワークを提案する。
我々は、動的ルータポリシーのために、マルチエキスパートゲートネットワークをトレーニングするために、分断方式を採用する。
提案手法は,専門家の選択権を決定する制御可能な事前ゲーティング機構を組み込んで,モデルの効率を向上させる。
論文 参考訳(メタデータ) (2024-10-01T15:42:09Z) - A Re-solving Heuristic for Dynamic Assortment Optimization with Knapsack Constraints [14.990988698038686]
資源knapsack制約下でのMNLを用いたマルチステージ動的アソシエーション最適化問題について検討する。
正確な最適動的アソシエーション解を計算的に抽出可能とすることで、決定論的線形プログラムを周期的に最適化する再解法を実践的戦略として採用する。
目的の分母を制約に効果的に変換するエポックな新しい再解法を提案する。
論文 参考訳(メタデータ) (2024-07-08T02:40:20Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Towards Geometry-Aware Pareto Set Learning for Neural Multi-Objective Combinatorial Optimization [19.631213689157995]
多目的多様性最適化(MOCO)問題は、様々な現実世界の応用で広く用いられている。
既存のほとんどのニューラルMOCO法は、MOCO問題を一連のSinge-Objective diversity enhancement (SOCO)問題に変換するために問題に依存する。
これらの手法はしばしば、不明瞭で時間を要する正確な超体積計算のため、前面の部分領域を近似する。
論文 参考訳(メタデータ) (2024-05-14T13:42:19Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - Exploring and Exploiting Decision Boundary Dynamics for Adversarial
Robustness [59.948529997062586]
既存の堅牢なトレーニング手法が、トレーニング中の各弱点点のマージンを効果的に増加させるかどうかは不明である。
本稿では,各点に対する決定境界の相対速度を定量化する連続時間フレームワークを提案する。
より小さなマージンの増大を優先する運動に決定境界が関与することを奨励するDyART(Dynamics-Aware Robust Training)を提案する。
論文 参考訳(メタデータ) (2023-02-06T18:54:58Z) - Adversarially Robust Learning for Security-Constrained Optimal Power
Flow [55.816266355623085]
我々は、N-kセキュリティ制約付き最適電力流(SCOPF)の課題に取り組む。
N-k SCOPFは電力網の運用における中核的な問題である。
N-k SCOPF を極小最適化問題とみなす。
論文 参考訳(メタデータ) (2021-11-12T22:08:10Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。