論文の概要: On the Expressivity of Multidimensional Markov Reward
- arxiv url: http://arxiv.org/abs/2307.12184v1
- Date: Sat, 22 Jul 2023 23:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:29:49.924333
- Title: On the Expressivity of Multidimensional Markov Reward
- Title(参考訳): 多次元マルコフ後退の表現性について
- Authors: Shuwa Miura
- Abstract要約: 我々は,不確実性の下での逐次意思決定におけるマルコフ報酬の表現性について考察する。
我々は、すべての非退化決定論的ポリシーに対して、多次元マルコフ報酬関数が存在することを示した。
- 参考スコア(独自算出の注目度): 0.6853165736531939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the expressivity of Markov rewards in sequential decision making
under uncertainty. We view reward functions in Markov Decision Processes (MDPs)
as a means to characterize desired behaviors of agents. Assuming desired
behaviors are specified as a set of acceptable policies, we investigate if
there exists a scalar or multidimensional Markov reward function that makes the
policies in the set more desirable than the other policies. Our main result
states both necessary and sufficient conditions for the existence of such
reward functions. We also show that for every non-degenerate set of
deterministic policies, there exists a multidimensional Markov reward function
that characterizes it
- Abstract(参考訳): 我々は,不確実な意思決定におけるマルコフ報酬の表現性を考察する。
我々はマルコフ決定過程(MDP)における報酬関数を,エージェントの望ましい振る舞いを特徴づける手段として捉えている。
望ましい行動が許容されるポリシーの集合として指定されていると仮定すると、他のポリシーよりもその集合のポリシーをより望ましいものにするスカラーあるいは多次元マルコフ報酬関数が存在するかどうかを調べる。
我々の主な成果は、そのような報酬関数の存在に必要な条件と十分な条件の両方である。
また,決定論的方針の非退化集合に対して,それを特徴付ける多次元マルコフ報酬関数が存在することも示す。
関連論文リスト
- Non-maximizing policies that fulfill multi-criterion aspirations in expectation [0.7874708385247353]
動的プログラミングおよび強化学習において、エージェントの逐次決定のためのポリシーは通常、目標をスカラー報酬関数として表現することによって決定される。
複数の異なる評価指標を持つ有限非巡回決定マルコフプロセスを考えるが、これは必ずしもユーザが最大化したい量を表すものではない。
提案アルゴリズムは,本課題を簡易性を用いて実現可能集合を近似し,その実現可能性を維持しつつ,前もって願望を伝達することによって達成することを保証する。
論文 参考訳(メタデータ) (2024-08-08T11:41:04Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Utility Theory for Sequential Decision Making [20.7262938359876]
メモリレスの嗜好が、移行当たりの報酬や、将来のリターンに対する乗法的要因という形で実用性をもたらすことを示す。
我々は、強化学習における合理的エージェントの設計の根底にある報酬仮説をデミスティフィケートする。
論文 参考訳(メタデータ) (2022-06-27T21:28:35Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - On the Expressivity of Markov Reward [89.96685777114456]
本稿では,エージェントが実行するタスクをキャプチャする手段として,報酬の表現性を理解することを目的としている。
本研究は,(1)許容される行動の集合,(2)行動上の部分順序,(3)軌道上の部分順序の3つの新しい抽象概念「タスク」について考察する。
論文 参考訳(メタデータ) (2021-11-01T12:12:16Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Identifiability in inverse reinforcement learning [0.0]
逆強化学習はマルコフ決定問題における報酬関数の再構成を試みる。
エントロピー正則化問題に対するこの非識別可能性に対する解決法を提供する。
論文 参考訳(メタデータ) (2021-06-07T10:35:52Z) - Online Learning of Non-Markovian Reward Models [2.064612766965483]
エージェントが進化する環境の力学をモデル化する非マルコフ報酬決定プロセス(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントに未知であり、学習されなければならない。
我々はAngluinの$L*$アクティブ学習アルゴリズムを用いて、基礎となる非マルコフ報酬マシンを表すMealyマシンを学習する。
論文 参考訳(メタデータ) (2020-09-26T13:54:34Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。