論文の概要: Proto Successor Measure: Representing the Behavior Space of an RL Agent
- arxiv url: http://arxiv.org/abs/2411.19418v2
- Date: Tue, 11 Mar 2025 17:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 16:15:11.894763
- Title: Proto Successor Measure: Representing the Behavior Space of an RL Agent
- Title(参考訳): プロト継承器測定:RLエージェントの挙動空間の表現
- Authors: Siddhant Agarwal, Harshit Sikchi, Peter Stone, Amy Zhang,
- Abstract要約: 汎用強化学習アルゴリズムでは「ゼロショット学習」が有効である。
本稿では,強化学習エージェントのすべての行動に対する基礎セットとして,Proto Successor Measureを提案する。
我々は,環境から報酬のないインタラクションデータを用いて,これらの基礎関数を学習する実用的なアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 37.55496993803242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Having explored an environment, intelligent agents should be able to transfer their knowledge to most downstream tasks within that environment without additional interactions. Referred to as "zero-shot learning", this ability remains elusive for general-purpose reinforcement learning algorithms. While recent works have attempted to produce zero-shot RL agents, they make assumptions about the nature of the tasks or the structure of the MDP. We present Proto Successor Measure: the basis set for all possible behaviors of a Reinforcement Learning Agent in a dynamical system. We prove that any possible behavior (represented using visitation distributions) can be represented using an affine combination of these policy-independent basis functions. Given a reward function at test time, we simply need to find the right set of linear weights to combine these bases corresponding to the optimal policy. We derive a practical algorithm to learn these basis functions using reward-free interaction data from the environment and show that our approach can produce the optimal policy at test time for any given reward function without additional environmental interactions. Project page: https://agarwalsiddhant10.github.io/projects/psm.html.
- Abstract(参考訳): 環境を探索したインテリジェントエージェントは、追加のインタラクションなしで、その環境内のほとんどの下流タスクに知識を移すことができるべきです。
ゼロショット学習(zero-shot learning)と呼ばれるこの能力は、汎用的な強化学習アルゴリズムにおいて依然として有用である。
近年の研究では、ゼロショットRLエージェントの創出が試みられているが、彼らはタスクの性質やMDPの構造について仮定している。
本稿では,動的システムにおける強化学習エージェントのすべての行動に関する基礎セットとして,Proto Successor Measureを提案する。
これらのポリシーに依存しない基底関数のアフィン結合を用いて、任意の行動(訪問分布を用いて表現される)を表現できることを証明した。
テスト時に報酬関数が与えられると、最適ポリシーに対応するこれらの基底を組み合わせるための線形重みの正しいセットを見つける必要がある。
環境からの報酬のない相互作用データを用いてこれらの基礎関数を学習する実践的アルゴリズムを導出し, 追加の環境相互作用を伴わずに, 与えられた報酬関数に対するテスト時に最適なポリシーを作成できることを示す。
プロジェクトページ:https://agarwalsiddhant10.github.io/projects/psm.html
関連論文リスト
- Reward Adaptation Via Q-Manipulation [3.8065968624597324]
本稿では、学習エージェントが1つまたは複数の既存行動に基づいて目標報酬関数に適応する問題である報酬適応(RA)に対する新しい解決策を提案する。
我々の研究は、Q-関数の操作によるRAに対する新しいアプローチを表している。
Q-Manipulation (Q-M) と呼ばれる手法について述べる。
論文 参考訳(メタデータ) (2025-03-17T17:42:54Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Efficient Local Planning with Linear Function Approximation [27.90696655434707]
線形関数近似とシミュレータを用いたクエリと計算効率のよい計画アルゴリズムについて検討する。
本稿では,モンテカルロ最小二乗政策反復(MC-LSPI)というアルゴリズムを提案する。
我々の研究の技術的貢献の1つは、仮想ポリシーアルゴリズムを利用した新しい証明手法の導入である。
論文 参考訳(メタデータ) (2021-08-12T04:56:33Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。
この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。
我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文 参考訳(メタデータ) (2021-01-06T19:07:31Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。