論文の概要: Limitations of Scalarisation in MORL: A Comparative Study in Discrete Environments
- arxiv url: http://arxiv.org/abs/2511.16476v1
- Date: Thu, 20 Nov 2025 15:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.70398
- Title: Limitations of Scalarisation in MORL: A Comparative Study in Discrete Environments
- Title(参考訳): MORLにおけるスカラー化の限界:離散環境における比較研究
- Authors: Muhammad Sa'ood Shah, Asad Jeewa,
- Abstract要約: 本研究では,多目的強化学習(MORL)アルゴリズムを個別の行動空間と観測空間にわたって検討した。
我々は,外部ループ型マルチポリシー手法を用いて,基礎的な単一ポリシーMORLアルゴリズムMO Q-Learningの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalarisation functions are widely employed in MORL algorithms to enable intelligent decision-making. However, these functions often struggle to approximate the Pareto front accurately, rendering them unideal in complex, uncertain environments. This study examines selected Multi-Objective Reinforcement Learning (MORL) algorithms across MORL environments with discrete action and observation spaces. We aim to investigate further the limitations associated with scalarisation approaches for decision-making in multi-objective settings. Specifically, we use an outer-loop multi-policy methodology to assess the performance of a seminal single-policy MORL algorithm, MO Q-Learning implemented with linear scalarisation and Chebyshev scalarisation functions. In addition, we explore a pioneering inner-loop multi-policy algorithm, Pareto Q-Learning, which offers a more robust alternative. Our findings reveal that the performance of the scalarisation functions is highly dependent on the environment and the shape of the Pareto front. These functions often fail to retain the solutions uncovered during learning and favour finding solutions in certain regions of the solution space. Moreover, finding the appropriate weight configurations to sample the entire Pareto front is complex, limiting their applicability in uncertain settings. In contrast, inner-loop multi-policy algorithms may provide a more sustainable and generalizable approach and potentially facilitate intelligent decision-making in dynamic and uncertain environments.
- Abstract(参考訳): 拡張関数は、インテリジェントな意思決定を可能にするために、MORLアルゴリズムで広く使われている。
しかし、これらの関数はしばしばパレートフロントを正確に近似するのに苦労し、複雑な不確実な環境では非理想的になる。
本研究では,MORL環境における個別の動作と観測空間を有する多目的強化学習(MORL)アルゴリズムについて検討した。
我々は,多目的設定における意思決定におけるスカラー化アプローチに関連する制約について,さらに検討することを目的とする。
具体的には,線形スキャラライゼーションとチェビシェフスキャラライゼーション機能を備えたMO Q-Learningアルゴリズムの性能を評価するために,外ループ型マルチポリシー手法を用いる。
さらに、より堅牢な代替手段を提供する、先駆的なインナーループマルチポリシーアルゴリズムPareto Q-Learningについても検討する。
その結果,スカラー化関数の性能はパレート前面の環境と形状に大きく依存していることが判明した。
これらの関数は、学習中に発見される解を保持し、解空間の特定の領域における解を見つけることを好まないことが多い。
さらに、Paretoフロント全体をサンプリングする適切な重み設定を見つけることは複雑であり、不確実な設定での適用性を制限する。
対照的に、インナーループマルチポリシーアルゴリズムはより持続的で一般化可能なアプローチを提供し、動的で不確実な環境でのインテリジェントな意思決定を促進する可能性がある。
関連論文リスト
- Improving Pareto Set Learning for Expensive Multi-objective Optimization via Stein Variational Hypernetworks [4.124390946636935]
重大多目的最適化問題(EMOP)は、目的関数の評価にコストがかかる実世界のシナリオでは一般的である。
本稿では,Stein Variational Gradient Descent (SVGD) を Hypernetworks に統合した SVH-PSL という新しい手法を提案する。
本手法は, 解空間を滑らかにするために粒子を集合的に移動させることにより, フラグメント化サロゲートモデルと擬似局所最適化の問題に対処する。
論文 参考訳(メタデータ) (2024-12-23T06:05:45Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。