論文の概要: An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments
- arxiv url: http://arxiv.org/abs/2401.03163v1
- Date: Sat, 6 Jan 2024 08:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:14:59.558442
- Title: An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments
- Title(参考訳): 確率環境における価値ベース多目的強化学習の実証的研究
- Authors: Kewen Ding, Peter Vamplew, Cameron Foale, Richard Dazeley
- Abstract要約: 本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
- 参考スコア(独自算出の注目度): 1.26404863283601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One common approach to solve multi-objective reinforcement learning (MORL)
problems is to extend conventional Q-learning by using vector Q-values in
combination with a utility function. However issues can arise with this
approach in the context of stochastic environments, particularly when
optimising for the Scalarised Expected Reward (SER) criterion. This paper
extends prior research, providing a detailed examination of the factors
influencing the frequency with which value-based MORL Q-learning algorithms
learn the SER-optimal policy for an environment with stochastic state
transitions. We empirically examine several variations of the core
multi-objective Q-learning algorithm as well as reward engineering approaches,
and demonstrate the limitations of these methods. In particular, we highlight
the critical impact of the noisy Q-value estimates issue on the stability and
convergence of these algorithms.
- Abstract(参考訳): 多目的強化学習(MORL)問題を解決するための一般的なアプローチは、ベクトルQ値とユーティリティ関数を組み合わせて従来のQ学習を拡張することである。
しかしながら、このアプローチは確率的環境の文脈において、特にsscalarised expected reward (ser) 基準に最適化する場合に発生する。
本稿では,確率的状態遷移を伴う環境に対して,値ベースMORL Q-learningアルゴリズムがSER最適ポリシーを学習する頻度に影響を与える要因を詳細に検討する。
我々は,多目的q-learningアルゴリズムの諸変種と報酬工学的アプローチを実験的に検討し,これらの手法の限界を実証する。
特に,これらのアルゴリズムの安定性と収束性に関して,ノイズの多いq値推定問題の影響を強調する。
関連論文リスト
- Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy
Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。
従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。
計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-02-08T08:08:23Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Quantum agents in the Gym: a variational quantum algorithm for deep
Q-learning [0.0]
本稿では、離散的かつ連続的な状態空間に対するRLタスクを解くために使用できるパラメタライズド量子回路(PQC)のトレーニング手法を提案する。
量子Q学習エージェントのどのアーキテクチャ選択が、特定の種類の環境をうまく解決するのに最も重要であるかを検討する。
論文 参考訳(メタデータ) (2021-03-28T08:57:22Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Towards Understanding Cooperative Multi-Agent Q-Learning with Value
Factorization [28.89692989420673]
因子化多エージェントQ-ラーニングを解析するための多エージェント適合Q-イテレーションフレームワークを形式化する。
さらなる分析により、オンライン学習やよりリッチなジョイントバリュー関数クラスは、その局所的あるいは大域的収束特性を改善することができる。
論文 参考訳(メタデータ) (2020-05-31T19:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。