論文の概要: Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning
- arxiv url: http://arxiv.org/abs/2211.08669v1
- Date: Wed, 16 Nov 2022 04:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:10:54.513648
- Title: Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning
- Title(参考訳): 多目的強化学習における確率環境の課題と地域意思決定
- Authors: Kewen Ding
- Abstract要約: 多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) is a relatively new field which
builds on conventional Reinforcement Learning (RL) to solve multi-objective
problems. One of common algorithm is to extend scalar value Q-learning by using
vector Q values in combination with a utility function, which captures the
user's preference for action selection. This study follows on prior works, and
focuses on what factors influence the frequency with which value-based MORL
Q-learning algorithms learn the optimal policy for an environment with
stochastic state transitions in scenarios where the goal is to maximise the
Scalarised Expected Return (SER) - that is, to maximise the average outcome
over multiple runs rather than the outcome within each individual episode. The
analysis of the interaction between stochastic environment and MORL Q-learning
algorithms run on a simple Multi-objective Markov decision process (MOMDP)
Space Traders problem with different variant versions. The empirical
evaluations show that well designed reward signal can improve the performance
of the original baseline algorithm, however it is still not enough to address
more general environment. A variant of MORL Q-Learning incorporating global
statistics is shown to outperform the baseline method in original Space Traders
problem, but remains below 100 percent effectiveness in finding the find
desired SER-optimal policy at the end of training. On the other hand, Option
learning is guarantied to converge to desired SER-optimal policy but it is not
able to scale up to solve more complex problem in real-life. The main
contribution of this thesis is to identify the extent to which the issue of
noisy Q-value estimates impacts on the ability to learn optimal policies under
the combination of stochastic environments, non-linear utility and a constant
learning rate.
- Abstract(参考訳): multi-objective reinforcement learning (morl) は、従来の強化学習 (rl) に基づいた、比較的新しい分野である。
一般的なアルゴリズムの1つは、ベクトルQ値とユーティリティ関数を組み合わせてスカラー値Q学習を拡張し、ユーザの行動選択の好みをキャプチャする。
本研究は、先行研究に続き、各エピソードにおける結果ではなく、複数の実行の平均結果を最大化するSER(Scalarised expecteded Return)の最大化を目標とするシナリオにおいて、価値に基づくMORL Q-learningアルゴリズムが確率的状態遷移を持つ環境に対して最適なポリシーを学習する頻度に影響を与える要因に焦点を当てる。
MORL Q-learningアルゴリズムと確率環境の相互作用の解析は、多目的マルコフ決定プロセス(MOMDP)の空間トレーダー問題において異なる変種で実行される。
実験的な評価では、よく設計された報酬信号は元のベースラインアルゴリズムの性能を向上させることができるが、より一般的な環境に対処するには不十分である。
グローバル統計を取り入れたMORL Q-Learningの変種は、宇宙トレーダ問題のベースライン法よりも優れているが、訓練の終わりに求めるSER最適ポリシーを見つけるための有効度は100%以下である。
一方、オプション学習は望ましいSER最適化ポリシーに収束することが保証されているが、現実の複雑な問題を解決するにはスケールアップできない。
この論文の主な貢献は、ノイズq値推定の問題は、確率環境、非線形ユーティリティ、定数学習率の組み合わせ下で最適なポリシーを学習する能力にどの程度影響するかを明らかにすることである。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments [1.26404863283601]
本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
論文 参考訳(メタデータ) (2024-01-06T08:43:08Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。