論文の概要: Multi-Objective Coordination Graphs for the Expected Scalarised Returns
with Generative Flow Models
- arxiv url: http://arxiv.org/abs/2207.00368v1
- Date: Fri, 1 Jul 2022 12:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 18:25:52.357784
- Title: Multi-Objective Coordination Graphs for the Expected Scalarised Returns
with Generative Flow Models
- Title(参考訳): 生成フローモデルを用いた予測スカラーリターンの多目的コーディネーショングラフ
- Authors: Conor F. Hayes and Timothy Verstraeten and Diederik M. Roijers and
Enda Howley and Patrick Mannion
- Abstract要約: 現実世界の問題を解決する鍵は、エージェント間の疎結合構造を利用することである。
風力発電の制御においては、電力の最大化とシステムコンポーネントのストレスの最小化の間にトレードオフが存在する。
エージェント間の疎結合を多目的協調グラフ(MO-CoG)としてモデル化する。
- 参考スコア(独自算出の注目度): 2.7648976108201815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world problems contain multiple objectives and agents, where a
trade-off exists between objectives. Key to solving such problems is to exploit
sparse dependency structures that exist between agents. For example, in wind
farm control a trade-off exists between maximising power and minimising stress
on the systems components. Dependencies between turbines arise due to the wake
effect. We model such sparse dependencies between agents as a multi-objective
coordination graph (MO-CoG). In multi-objective reinforcement learning a
utility function is typically used to model a users preferences over
objectives, which may be unknown a priori. In such settings a set of optimal
policies must be computed. Which policies are optimal depends on which
optimality criterion applies. If the utility function of a user is derived from
multiple executions of a policy, the scalarised expected returns (SER) must be
optimised. If the utility of a user is derived from a single execution of a
policy, the expected scalarised returns (ESR) criterion must be optimised. For
example, wind farms are subjected to constraints and regulations that must be
adhered to at all times, therefore the ESR criterion must be optimised. For
MO-CoGs, the state-of-the-art algorithms can only compute a set of optimal
policies for the SER criterion, leaving the ESR criterion understudied. To
compute a set of optimal polices under the ESR criterion, also known as the ESR
set, distributions over the returns must be maintained. Therefore, to compute a
set of optimal policies under the ESR criterion for MO-CoGs, we present a novel
distributional multi-objective variable elimination (DMOVE) algorithm. We
evaluate DMOVE in realistic wind farm simulations. Given the returns in
real-world wind farm settings are continuous, we utilise a model known as
real-NVP to learn the continuous return distributions to calculate the ESR set.
- Abstract(参考訳): 多くの現実世界の問題には複数の目的とエージェントが含まれており、目的の間にトレードオフが存在する。
このような問題を解決する鍵は、エージェント間に存在する疎結合構造を利用することである。
例えば、風力発電の制御では、電力の最大化とシステムコンポーネントのストレスの最小化の間にトレードオフが存在する。
タービン間の依存性はウェイク効果によって生じる。
エージェント間の疎結合を多目的協調グラフ(MO-CoG)としてモデル化する。
多目的強化学習において、実用関数は、通常、ユーザーが目的よりも好みをモデル化するために使用される。
このような設定では、最適なポリシーのセットを計算しなければならない。
どのポリシーが最適かは、どの最適性基準が適用されるかによって決まる。
ユーザのユーティリティ関数がポリシーの複数の実行から導出される場合、スカラー化された期待リターン(SER)を最適化する必要がある。
ユーザのユーティリティがポリシーの単一の実行から派生している場合は、期待されるsscalarised return (esr) の基準を最適化する必要がある。
例えば、風力発電所は、常に遵守しなければならない制約や規制を受けており、ESR基準は最適化されなければならない。
MO-CoGでは、最先端のアルゴリズムはSER基準に対する最適なポリシーのセットしか計算できず、ESR基準は検討されていない。
ESR基準(ESR集合)の下で最適な警察の集合を計算するには、リターンの分布を維持する必要がある。
そこで本研究では,MO-CoGのESR基準の下で最適ポリシーの集合を計算するために,分散多目的変数除去(DMOVE)アルゴリズムを提案する。
風力発電シミュレーションにおけるDMOVEの評価を行った。
実世界の風力発電環境におけるリターンが連続的であることを考慮し、実NVPとして知られるモデルを用いて、ESR集合を計算する。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - LLM-enhanced Reranking in Recommender Systems [49.969932092129305]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Machine Learning Simulates Agent-Based Model Towards Policy [0.0]
ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。
その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。
以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
論文 参考訳(メタデータ) (2022-03-04T21:19:11Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Expected Scalarised Returns Dominance: A New Solution Concept for
Multi-Objective Decision Making [4.117597517886004]
多くの実世界のシナリオでは、ユーザのユーティリティはポリシーの単一実行から導かれる。
多目的強化学習を適用するためには、期待される戻り値の有用性を最適化する必要がある。
本稿では,期待されるユーティリティを最大化するためのソリューションセット構築の基準として,一階優位性を提案する。
次に、ESR支配的なポリシーの集合であるESRセットと呼ばれる新しいソリューションの概念を定義します。
論文 参考訳(メタデータ) (2021-06-02T09:42:42Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - A utility-based analysis of equilibria in multi-objective normal form
games [4.632366780742502]
我々は、MOMASにおける競合する目的間の妥協は、システムのユーザにとってこれらの妥協が持つ実用性に基づいて分析されるべきである、と論じる。
このユーティリティベースのアプローチは、MOMAS内のエージェントに対する2つの異なる最適化基準を自然に導く。
非線型効用関数を用いる場合、最適化基準の選択はMONFGにおける平衡の集合を根本的に変更できることを示す。
論文 参考訳(メタデータ) (2020-01-17T22:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。