論文の概要: Successor Feature Representations
- arxiv url: http://arxiv.org/abs/2110.15701v4
- Date: Wed, 2 Aug 2023 09:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 18:32:47.632722
- Title: Successor Feature Representations
- Title(参考訳): 継承的特徴表現
- Authors: Chris Reinke, Xavier Alameda-Pineda
- Abstract要約: 強化学習における伝達は、経験豊富なソースタスクからの知識を用いて、目標タスクにおける学習パフォーマンスを改善することを目的としている。
継承表現(SR)とその拡張継承特徴(SF)は、タスク間で報酬関数が変化する領域において顕著な伝達機構である。
本稿では,後継特徴量の累積割引確率を学習したSRの新たな定式化を提案する。
- 参考スコア(独自算出の注目度): 20.91847255769988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer in Reinforcement Learning aims to improve learning performance on
target tasks using knowledge from experienced source tasks. Successor
Representations (SR) and their extension Successor Features (SF) are prominent
transfer mechanisms in domains where reward functions change between tasks.
They reevaluate the expected return of previously learned policies in a new
target task to transfer their knowledge. The SF framework extended SR by
linearly decomposing rewards into successor features and a reward weight vector
allowing their application in high-dimensional tasks. But this came with the
cost of having a linear relationship between reward functions and successor
features, limiting its application to tasks where such a linear relationship
exists. We propose a novel formulation of SR based on learning the cumulative
discounted probability of successor features, called Successor Feature
Representations (SFR). Crucially, SFR allows to reevaluate the expected return
of policies for general reward functions. We introduce different SFR
variations, prove its convergence, and provide a guarantee on its transfer
performance. Experimental evaluations based on SFR with function approximation
demonstrate its advantage over SF not only for general reward functions, but
also in the case of linearly decomposable reward functions.
- Abstract(参考訳): 強化学習の伝達は、経験豊富なソースタスクからの知識を使用して、ターゲットタスクの学習性能を向上させることを目的としている。
successor representations (sr) と extension successor features (sf) は、報酬関数がタスク間で変化するドメインにおける顕著な転送メカニズムである。
彼らは、知識を伝達するための新しい目標タスクにおいて、学習済みのポリシーの期待した回帰を再評価する。
SFフレームワークは、報酬を後継特徴に線形に分解することでSRを拡張し、高次元タスクに応用できる報酬重みベクトルを開発した。
しかし、これは報酬関数と後継機能の間に線形関係を持つコストが伴い、そのような線形関係が存在するタスクにその適用を制限した。
本稿では,後継特徴表現(SFR)の累積割引確率を学習したSRの新たな定式化を提案する。
重要なことは、SFRは一般的な報酬関数に対するポリシーの再評価を可能にする。
我々は、異なるSFR変動を導入し、その収束性を証明し、転送性能を保証する。
関数近似を用いたSFRによる実験的評価は、一般報酬関数だけでなく、線形分解可能な報酬関数においても、SFよりも有利であることを示す。
関連論文リスト
- Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution [48.92144929307152]
強化学習(RL)では、エージェントの動作毎に即時報奨信号を生成する。
多くの実世界のアプリケーションでは、即時報酬信号はエージェントによって取得できない。
本稿では,各バッグ内の文脈ニュアンスと時間的依存関係を自己認識機構を用いて解釈するトランスフォーマーベースの報酬モデルReward Bag Transformer (RBT)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [4.36488705757229]
逆強化学習(IRL)は、専門家によるデモンストレーションから基礎となる報酬関数を回復する。
この研究は、伝達可能な報酬関数を学習するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement
Learning [20.12564350629561]
強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。
標準RLアルゴリズムは単一の報酬関数にのみ適用でき、すぐに見つからない報酬関数に適応できない。
我々は、報酬関数から値関数にマップする演算子を直接近似できる強化学習の一般的な演算子視点を提唱する。
論文 参考訳(メタデータ) (2022-01-01T19:52:38Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。