論文の概要: Proto Successor Measure: Representing the Behavior Space of an RL Agent
- arxiv url: http://arxiv.org/abs/2411.19418v2
- Date: Tue, 11 Mar 2025 17:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:22.921317
- Title: Proto Successor Measure: Representing the Behavior Space of an RL Agent
- Title(参考訳): プロト継承器測定:RLエージェントの挙動空間の表現
- Authors: Siddhant Agarwal, Harshit Sikchi, Peter Stone, Amy Zhang,
- Abstract要約: 汎用強化学習アルゴリズムでは「ゼロショット学習」が有効である。
本稿では,強化学習エージェントのすべての行動に対する基礎セットとして,Proto Successor Measureを提案する。
我々は,環境から報酬のないインタラクションデータを用いて,これらの基礎関数を学習する実用的なアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 37.55496993803242
- License:
- Abstract: Having explored an environment, intelligent agents should be able to transfer their knowledge to most downstream tasks within that environment without additional interactions. Referred to as "zero-shot learning", this ability remains elusive for general-purpose reinforcement learning algorithms. While recent works have attempted to produce zero-shot RL agents, they make assumptions about the nature of the tasks or the structure of the MDP. We present Proto Successor Measure: the basis set for all possible behaviors of a Reinforcement Learning Agent in a dynamical system. We prove that any possible behavior (represented using visitation distributions) can be represented using an affine combination of these policy-independent basis functions. Given a reward function at test time, we simply need to find the right set of linear weights to combine these bases corresponding to the optimal policy. We derive a practical algorithm to learn these basis functions using reward-free interaction data from the environment and show that our approach can produce the optimal policy at test time for any given reward function without additional environmental interactions. Project page: https://agarwalsiddhant10.github.io/projects/psm.html.
- Abstract(参考訳): 環境を探索したインテリジェントエージェントは、追加のインタラクションなしで、その環境内のほとんどの下流タスクに知識を移すことができるべきです。
ゼロショット学習(zero-shot learning)と呼ばれるこの能力は、汎用的な強化学習アルゴリズムにおいて依然として有用である。
近年の研究では、ゼロショットRLエージェントの創出が試みられているが、彼らはタスクの性質やMDPの構造について仮定している。
本稿では,動的システムにおける強化学習エージェントのすべての行動に関する基礎セットとして,Proto Successor Measureを提案する。
これらのポリシーに依存しない基底関数のアフィン結合を用いて、任意の行動(訪問分布を用いて表現される)を表現できることを証明した。
テスト時に報酬関数が与えられると、最適ポリシーに対応するこれらの基底を組み合わせるための線形重みの正しいセットを見つける必要がある。
環境からの報酬のない相互作用データを用いてこれらの基礎関数を学習する実践的アルゴリズムを導出し, 追加の環境相互作用を伴わずに, 与えられた報酬関数に対するテスト時に最適なポリシーを作成できることを示す。
プロジェクトページ:https://agarwalsiddhant10.github.io/projects/psm.html
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Matching options to tasks using Option-Indexed Hierarchical
Reinforcement Learning [20.85397773933171]
階層型学習(OI-HRL)のための新しいオプションインデックス化手法を提案する。
これにより、テスト時にゼロショットの一般化において、事前訓練されたオプションの大規模なライブラリを効果的に再利用できる。
我々は,一連のHRL問題に対して,選択肢や環境の表現を学習するメタ学習ループを開発する。
論文 参考訳(メタデータ) (2022-06-12T14:39:02Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Efficient Local Planning with Linear Function Approximation [27.90696655434707]
線形関数近似とシミュレータを用いたクエリと計算効率のよい計画アルゴリズムについて検討する。
本稿では,モンテカルロ最小二乗政策反復(MC-LSPI)というアルゴリズムを提案する。
我々の研究の技術的貢献の1つは、仮想ポリシーアルゴリズムを利用した新しい証明手法の導入である。
論文 参考訳(メタデータ) (2021-08-12T04:56:33Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。