論文の概要: Calculus on MDPs: Potential Shaping as a Gradient
- arxiv url: http://arxiv.org/abs/2208.09570v1
- Date: Sat, 20 Aug 2022 00:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:48:38.300142
- Title: Calculus on MDPs: Potential Shaping as a Gradient
- Title(参考訳): MDPに関する計算: グラディエントとしてのポテンシャル形成
- Authors: Erik Jenner, Herke van Hoof, Adam Gleave
- Abstract要約: 我々はマルコフ決定過程を抽象化するグラフ上の離散計算の定式化を開発する。
この枠組みでは, 組織形成の可能性について, 公式なグラデーションとして解釈できることを示す。
フォーマリズムのさらなる応用として、各ポテンシャル整形同値類から一意の報酬関数を選択するための規則を定義する。
- 参考スコア(独自算出の注目度): 22.96354252699914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, different reward functions can be equivalent in
terms of the optimal policies they induce. A particularly well-known and
important example is potential shaping, a class of functions that can be added
to any reward function without changing the optimal policy set under arbitrary
transition dynamics. Potential shaping is conceptually similar to potentials,
conservative vector fields and gauge transformations in math and physics, but
this connection has not previously been formally explored. We develop a
formalism for discrete calculus on graphs that abstract a Markov Decision
Process, and show how potential shaping can be formally interpreted as a
gradient within this framework. This allows us to strengthen results from Ng et
al. (1999) describing conditions under which potential shaping is the only
additive reward transformation to always preserve optimal policies. As an
additional application of our formalism, we define a rule for picking a single
unique reward function from each potential shaping equivalence class.
- Abstract(参考訳): 強化学習では、異なる報酬関数は、彼らが誘導する最適ポリシーの観点で等価である。
特によく知られた重要な例は、任意の遷移ダイナミクスの下で最適なポリシーセットを変更することなく、任意の報酬関数に追加できる関数のクラスであるポテンシャルシェーピングである。
ポテンシャル整形は、数学や物理学におけるポテンシャル、保守的ベクトル場、ゲージ変換と概念的に似ているが、この関係は以前は公式には研究されていない。
我々はマルコフ決定過程を抽象化するグラフ上の離散計算の形式論を開発し、この枠組み内の勾配として形式的に形式化できる可能性を示す。
これにより Ng et al. (1999) から、常に最適なポリシーを維持する唯一の付加的な報酬変換であるような条件を記述する結果を強化することができる。
形式化の付加的な応用として、各潜在シェーピング同値クラスから1つのユニークな報酬関数を選択するルールを定義します。
関連論文リスト
- Shape Arithmetic Expressions: Advancing Scientific Discovery Beyond Closed-Form Equations [56.78271181959529]
GAM(Generalized Additive Models)は、変数とターゲットの間の非線形関係をキャプチャできるが、複雑な特徴相互作用をキャプチャすることはできない。
本稿では,GAMのフレキシブルな形状関数と,数学的表現に見られる複雑な特徴相互作用を融合させる形状表現算術(SHARE)を提案する。
また、標準制約を超えた表現の透明性を保証するSHAREを構築するための一連のルールを設計する。
論文 参考訳(メタデータ) (2024-04-15T13:44:01Z) - A Large Deviations Perspective on Policy Gradient Algorithms [6.075593833879357]
政策勾配法により動機付け,勾配法によって生成されるレート反復に対する大きな偏差関数を同定する。
我々は、この現象を他の政策パラメトリゼーションの幅広い範囲に自然に拡張できることを示す。
論文 参考訳(メタデータ) (2023-11-13T15:44:27Z) - FP-IRL: Fokker-Planck-based Inverse Reinforcement Learning -- A
Physics-Constrained Approach to Markov Decision Processes [0.5735035463793008]
逆強化学習(英: Inverse Reinforcement Learning、IRL)は、自律エージェントの行動の基礎となる根拠を明らかにする技術である。
IRLは、観測されたエージェント軌道からマルコフ決定過程(MDP)の未知の報酬関数を推定しようとする。
我々は、観測軌道のみを用いて遷移関数と報酬関数を同時に推論できる新しいIRLアルゴリズムFP-IRLを作成する。
論文 参考訳(メタデータ) (2023-06-17T18:28:03Z) - Object Representations as Fixed Points: Training Iterative Refinement
Algorithms with Implicit Differentiation [88.14365009076907]
反復的洗練は表現学習に有用なパラダイムである。
トレーニングの安定性とトラクタビリティを向上させる暗黙の差別化アプローチを開発する。
論文 参考訳(メタデータ) (2022-07-02T10:00:35Z) - Quasi-Newton Iteration in Deterministic Policy Gradient [0.0]
近似ヘシアンが最適なポリシーで正確なヘシアンに収束することを示す。
簡単な線形の場合の定式化を解析的に検証し,提案手法の収束度を自然政策勾配と比較する。
論文 参考訳(メタデータ) (2022-03-25T18:38:57Z) - Non-perturbative Quantum Propagators in Bounded Spaces [0.0]
一般化されたヒット関数は多点プロパゲータとして定義される。
ファインマンプロパゲータの計算方法を示す。
我々は、ディリクレ境界条件が与えられた幾何学の中に存在するとき、プロパゲータの一般的な解析公式を予想する。
論文 参考訳(メタデータ) (2021-10-11T02:47:26Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。