論文の概要: An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments
- arxiv url: http://arxiv.org/abs/2401.03163v1
- Date: Sat, 6 Jan 2024 08:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:14:59.558442
- Title: An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments
- Title(参考訳): 確率環境における価値ベース多目的強化学習の実証的研究
- Authors: Kewen Ding, Peter Vamplew, Cameron Foale, Richard Dazeley
- Abstract要約: 本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
- 参考スコア(独自算出の注目度): 1.26404863283601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One common approach to solve multi-objective reinforcement learning (MORL)
problems is to extend conventional Q-learning by using vector Q-values in
combination with a utility function. However issues can arise with this
approach in the context of stochastic environments, particularly when
optimising for the Scalarised Expected Reward (SER) criterion. This paper
extends prior research, providing a detailed examination of the factors
influencing the frequency with which value-based MORL Q-learning algorithms
learn the SER-optimal policy for an environment with stochastic state
transitions. We empirically examine several variations of the core
multi-objective Q-learning algorithm as well as reward engineering approaches,
and demonstrate the limitations of these methods. In particular, we highlight
the critical impact of the noisy Q-value estimates issue on the stability and
convergence of these algorithms.
- Abstract(参考訳): 多目的強化学習(MORL)問題を解決するための一般的なアプローチは、ベクトルQ値とユーティリティ関数を組み合わせて従来のQ学習を拡張することである。
しかしながら、このアプローチは確率的環境の文脈において、特にsscalarised expected reward (ser) 基準に最適化する場合に発生する。
本稿では,確率的状態遷移を伴う環境に対して,値ベースMORL Q-learningアルゴリズムがSER最適ポリシーを学習する頻度に影響を与える要因を詳細に検討する。
我々は,多目的q-learningアルゴリズムの諸変種と報酬工学的アプローチを実験的に検討し,これらの手法の限界を実証する。
特に,これらのアルゴリズムの安定性と収束性に関して,ノイズの多いq値推定問題の影響を強調する。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Towards Understanding Cooperative Multi-Agent Q-Learning with Value
Factorization [28.89692989420673]
因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを形式化する。
さらなる分析により、オンライン学習やよりリッチなジョイントバリュー関数クラスは、その局所的あるいは大域的収束特性を改善することができる。
論文 参考訳(メタデータ) (2020-05-31T19:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。