Fugu-MT 論文翻訳(概要): A Simple Approach for State-Action Abstraction using a Learned MDP Homomorphism

論文の概要: A Simple Approach for State-Action Abstraction using a Learned MDP Homomorphism

arxiv url: http://arxiv.org/abs/2209.06356v2
Date: Mon, 3 Jul 2023 20:09:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 00:03:18.573355
Title: A Simple Approach for State-Action Abstraction using a Learned MDP Homomorphism
Title（参考訳）: 学習MDP準同型を用いた状態-作用抽象化の一手法
Authors: Augustine N. Mavor-Parker, Matthew J. Sargent, Andrea Banino, Lewis D. Griffin, Caswell Barry
Abstract要約: 離散作用空間における準同型を構成するための新しい手法を提案する。我々は、環境力学の部分モデルを用いて、どの状態のアクションペアが同じ状態につながるかを推測する。提案手法は,33倍少ない学習データを用いながら,既存の準同型学習法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 7.51347176249553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Animals are able to rapidly infer from limited experience when sets of state action pairs have equivalent reward and transition dynamics. On the other hand, modern reinforcement learning systems must painstakingly learn through trial and error that sets of state action pairs are value equivalent -- requiring an often prohibitively large amount of samples from their environment. MDP homomorphisms have been proposed that reduce the observed MDP of an environment to an abstract MDP, which can enable more sample efficient policy learning. Consequently, impressive improvements in sample efficiency have been achieved when a suitable MDP homomorphism can be constructed a priori -- usually by exploiting a practioner's knowledge of environment symmetries. We propose a novel approach to constructing a homomorphism in discrete action spaces, which uses a partial model of environment dynamics to infer which state action pairs lead to the same state -- reducing the size of the state-action space by a factor equal to the cardinality of the action space. We call this method equivalent effect abstraction. In a gridworld setting, we demonstrate empirically that equivalent effect abstraction can improve sample efficiency in a model-free setting and planning efficiency for modelbased approaches. Furthermore, we show on cartpole that our approach outperforms an existing method for learning homomorphisms, while using 33x less training data.
Abstract（参考訳）: 状態アクションペアのセットが等価な報酬と遷移ダイナミクスを持つ場合、動物は限られた経験から素早く推測することができる。 On the other hand, modern reinforcement learning systems must painstakingly learn through trial and error that sets of state action pairs are value equivalent -- requiring an often prohibitively large amount of samples from their environment. MDP homomorphisms have been proposed that reduce the observed MDP of an environment to an abstract MDP, which can enable more sample efficient policy learning. Consequently, impressive improvements in sample efficiency have been achieved when a suitable MDP homomorphism can be constructed a priori -- usually by exploiting a practioner's knowledge of environment symmetries. 本研究では, 離散的作用空間における準同型を構築するための新しい手法を提案する。この手法では, 状態作用対が同じ状態につながるかを推定するために, 環境力学の偏モデルを用い, 状態-作用空間の大きさを作用空間の濃度に等しい係数で減少させる。我々はこのメソッドを等価エフェクト抽象化と呼ぶ。グリッドワールド環境では、等価効果抽象化がモデルベースアプローチのモデルフリー設定と計画効率においてサンプル効率を向上させることを実証的に実証する。さらに,本手法は33倍のトレーニングデータを用いながら,既存の準同型学習法よりも優れていることを示す。

関連論文リスト

Heterogeneous User Modeling for LLM-based Recommendation [70.52873882470328]
オープンドメインレコメンデーションを進める上で重要な課題は、ユーザの不均一な振る舞いからユーザの好みを効果的にモデル化することだ。 IDベースやセマンティックベースモデリングなど、既存のアプローチでは、一般化の貧弱さに悩まされている。圧縮エンハンサーとロバストネスエンハンサーを組み込んだヘテロジニアス・ユーザ・モデリング(HUM)手法を提案する。
論文参考訳（メタデータ） (2025-07-07T03:08:28Z)
Bi-directional Recurrence Improves Transformer in Partially Observable Markov Decision Processes [5.220940151628735]
本研究は, サンプル効率を改善し, POMDP シナリオにおけるモデルパラメータ数を削減した, 新たなバイリカレントモデルアーキテクチャを提案する。提案したモデルアーキテクチャは、既存のトランスフォーマーベース、注意ベース、再発ベースの手法を平均87.39%から482.04%のマージンで上回っている。
論文参考訳（メタデータ） (2025-05-16T11:54:48Z)
Towards Causal Model-Based Policy Optimization [0.24578723416255752]
因果モデルに基づく政策最適化(C-MBPO)を紹介する。 C-MBPOは、因果学習をモデルベース強化学習パイプラインに統合する新しいフレームワークである。我々は、C-MBPOが、動的に急激で非因果関係に影響を及ぼす分布シフトのクラスに対して堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-12T18:09:02Z)
A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文参考訳（メタデータ） (2024-10-02T20:46:21Z)
Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。 CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。 CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文参考訳（メタデータ） (2024-02-05T03:25:04Z)
Boosting Adversarial Transferability by Achieving Flat Local Maxima [23.91315978193527]
近年、様々な敵の攻撃が出現し、異なる視点から敵の移動可能性を高めている。本研究では, 平坦な局所領域における逆例が良好な伝達性を持つ傾向があることを仮定し, 実証的に検証する。目的関数の勾配更新を簡略化する近似最適化法を提案する。
論文参考訳（メタデータ） (2023-06-08T14:21:02Z)
Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文参考訳（メタデータ） (2022-08-18T06:42:49Z)
Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文参考訳（メタデータ） (2021-10-17T15:21:27Z)
Identifiable Energy-based Representations: An Application to Estimating Heterogeneous Causal Effects [83.66276516095665]
条件付き平均治療効果(CATEs)は、多数の個体にまたがる不均一性について理解することができる。典型的なCATE学習者は、CATEが識別可能であるために、すべての共起変数が測定されていると仮定する。本稿では,ノイズコントラッシブ損失関数を用いて,変数の低次元表現を学習するエネルギーベースモデルを提案する。
論文参考訳（メタデータ） (2021-08-06T10:39:49Z)
Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文参考訳（メタデータ） (2021-02-15T16:59:30Z)
Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文参考訳（メタデータ） (2020-03-12T21:03:01Z)
Plannable Approximations to MDP Homomorphisms: Equivariance under Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文参考訳（メタデータ） (2020-02-27T08:29:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。