論文の概要: A Demonstration of Issues with Value-Based Multiobjective Reinforcement
Learning Under Stochastic State Transitions
- arxiv url: http://arxiv.org/abs/2004.06277v1
- Date: Tue, 14 Apr 2020 02:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:14:48.304198
- Title: A Demonstration of Issues with Value-Based Multiobjective Reinforcement
Learning Under Stochastic State Transitions
- Title(参考訳): 確率状態遷移における値に基づく多目的強化学習の課題
- Authors: Peter Vamplew, Cameron Foale and Richard Dazeley
- Abstract要約: モデルフリーで価値に基づく多目的強化学習へのアプローチに関して,これまで未定の課題を報告した。
このような条件下では、これらのアプローチはScalarised expecteded Returnを最大化するポリシーを見つけることができません。
遷移に支配されたMOMDPのSERを最大化するのに適したいくつかの方法について議論する。
- 参考スコア(独自算出の注目度): 2.5229940062544505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report a previously unidentified issue with model-free, value-based
approaches to multiobjective reinforcement learning in the context of
environments with stochastic state transitions. An example multiobjective
Markov Decision Process (MOMDP) is used to demonstrate that under such
conditions these approaches may be unable to discover the policy which
maximises the Scalarised Expected Return, and in fact may converge to a
Pareto-dominated solution. We discuss several alternative methods which may be
more suitable for maximising SER in MOMDPs with stochastic transitions.
- Abstract(参考訳): 確率的状態遷移を伴う環境における多目的強化学習に対するモデルフリーで価値に基づくアプローチに関する未定の問題について報告する。
多目的マルコフ決定過程(MOMDP)の例は、そのような条件下でこれらのアプローチがScalarised expecteded Returnを最大化するポリシーを見つけることができず、実際にはPareto-dominated Solutionに収束することを示している。
確率的遷移を持つmomdpにおけるserの最大化に適した代替手法について検討する。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Towards Using Fully Observable Policies for POMDPs [0.0]
部分的に観測可能なマルコフ決定プロセス(POMDP)は多くの現実世界の問題に適用可能なフレームワークである。
そこで本研究では,POMDPをマルチモーダルな信念で解決する手法を提案する。
論文 参考訳(メタデータ) (2022-07-24T13:22:13Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z) - Lifted Hybrid Variational Inference [31.441922284854893]
ハイブリッド領域に適用可能な2つの近似昇降変分法について検討する。
提案手法はスケーラブルであり,近似モデル対称性を活用可能であることを示す。
我々は、ベテ近似が辺のポリトープに対して非自明な推定を与えるのに十分な条件を示す。
論文 参考訳(メタデータ) (2020-01-08T22:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。