論文の概要: Using Forwards-Backwards Models to Approximate MDP Homomorphisms
- arxiv url: http://arxiv.org/abs/2209.06356v3
- Date: Sat, 2 Mar 2024 17:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:23:34.558593
- Title: Using Forwards-Backwards Models to Approximate MDP Homomorphisms
- Title(参考訳): 前方-後方モデルを用いたMDP準同型近似
- Authors: Augustine N. Mavor-Parker, Matthew J. Sargent, Christian Pehle, Andrea
Banino, Lewis D. Griffin, Caswell Barry
- Abstract要約: 離散作用空間における準同型を構成するための新しい手法を提案する。
環境力学の学習モデルを用いて、どの状態-作用ペアが同じ状態につながるかを推定する。
MinAtarでは,低サンプリング限界における値ベースオフ政治ベースラインに対して,ほぼ4倍の改善が報告されている。
- 参考スコア(独自算出の注目度): 11.020094184644789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning agents must painstakingly learn through trial and
error what sets of state-action pairs are value equivalent -- requiring an
often prohibitively large amount of environment experience. MDP homomorphisms
have been proposed that reduce the MDP of an environment to an abstract MDP,
enabling better sample efficiency. Consequently, impressive improvements have
been achieved when a suitable homomorphism can be constructed a priori --
usually by exploiting a practitioner's knowledge of environment symmetries. We
propose a novel approach to constructing homomorphisms in discrete action
spaces, which uses a learnt model of environment dynamics to infer which
state-action pairs lead to the same state -- which can reduce the size of the
state-action space by a factor as large as the cardinality of the original
action space. In MinAtar, we report an almost 4x improvement over a value-based
off-policy baseline in the low sample limit, when averaging over all games and
optimizers.
- Abstract(参考訳): 強化学習エージェントは試行錯誤を通じて辛抱強く学習し、どのような状態と作用するペアが同等の価値を持つのかを判断しなければならない。
環境のMDPを抽象MDPに還元し、サンプル効率を向上するMDP準同型が提案されている。
その結果、適切な準同型を事前構築できる場合、通常は実践者の環境対称性に関する知識を活用することにより、印象的な改善が達成された。
本研究では, 環境力学の学習モデルを用いて, 状態-作用対が同一の状態につながるかを推定し, 状態-作用空間の大きさを元の作用空間の濃度よりも大きい因子で減少させる, 離散的作用空間における準同型を構築する新しい手法を提案する。
MinAtarでは,全てのゲームやオプティマイザを平均化する際に,低いサンプル制限で値ベースのオフポリティベースラインをほぼ4倍改善したことを報告している。
関連論文リスト
- A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。
その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文 参考訳(メタデータ) (2024-10-02T20:46:21Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Boosting Adversarial Transferability by Achieving Flat Local Maxima [23.91315978193527]
近年、様々な敵の攻撃が出現し、異なる視点から敵の移動可能性を高めている。
本研究では, 平坦な局所領域における逆例が良好な伝達性を持つ傾向があることを仮定し, 実証的に検証する。
目的関数の勾配更新を簡略化する近似最適化法を提案する。
論文 参考訳(メタデータ) (2023-06-08T14:21:02Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Identifiable Energy-based Representations: An Application to Estimating
Heterogeneous Causal Effects [83.66276516095665]
条件付き平均治療効果(CATEs)は、多数の個体にまたがる不均一性について理解することができる。
典型的なCATE学習者は、CATEが識別可能であるために、すべての共起変数が測定されていると仮定する。
本稿では,ノイズコントラッシブ損失関数を用いて,変数の低次元表現を学習するエネルギーベースモデルを提案する。
論文 参考訳(メタデータ) (2021-08-06T10:39:49Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。