論文の概要: Successor Feature Representations
- arxiv url: http://arxiv.org/abs/2110.15701v4
- Date: Wed, 2 Aug 2023 09:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 18:32:47.632722
- Title: Successor Feature Representations
- Title(参考訳): 継承的特徴表現
- Authors: Chris Reinke, Xavier Alameda-Pineda
- Abstract要約: 強化学習における伝達は、経験豊富なソースタスクからの知識を用いて、目標タスクにおける学習パフォーマンスを改善することを目的としている。
継承表現(SR)とその拡張継承特徴(SF)は、タスク間で報酬関数が変化する領域において顕著な伝達機構である。
本稿では,後継特徴量の累積割引確率を学習したSRの新たな定式化を提案する。
- 参考スコア(独自算出の注目度): 20.91847255769988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer in Reinforcement Learning aims to improve learning performance on
target tasks using knowledge from experienced source tasks. Successor
Representations (SR) and their extension Successor Features (SF) are prominent
transfer mechanisms in domains where reward functions change between tasks.
They reevaluate the expected return of previously learned policies in a new
target task to transfer their knowledge. The SF framework extended SR by
linearly decomposing rewards into successor features and a reward weight vector
allowing their application in high-dimensional tasks. But this came with the
cost of having a linear relationship between reward functions and successor
features, limiting its application to tasks where such a linear relationship
exists. We propose a novel formulation of SR based on learning the cumulative
discounted probability of successor features, called Successor Feature
Representations (SFR). Crucially, SFR allows to reevaluate the expected return
of policies for general reward functions. We introduce different SFR
variations, prove its convergence, and provide a guarantee on its transfer
performance. Experimental evaluations based on SFR with function approximation
demonstrate its advantage over SF not only for general reward functions, but
also in the case of linearly decomposable reward functions.
- Abstract(参考訳): 強化学習の伝達は、経験豊富なソースタスクからの知識を使用して、ターゲットタスクの学習性能を向上させることを目的としている。
successor representations (sr) と extension successor features (sf) は、報酬関数がタスク間で変化するドメインにおける顕著な転送メカニズムである。
彼らは、知識を伝達するための新しい目標タスクにおいて、学習済みのポリシーの期待した回帰を再評価する。
SFフレームワークは、報酬を後継特徴に線形に分解することでSRを拡張し、高次元タスクに応用できる報酬重みベクトルを開発した。
しかし、これは報酬関数と後継機能の間に線形関係を持つコストが伴い、そのような線形関係が存在するタスクにその適用を制限した。
本稿では,後継特徴表現(SFR)の累積割引確率を学習したSRの新たな定式化を提案する。
重要なことは、SFRは一般的な報酬関数に対するポリシーの再評価を可能にする。
我々は、異なるSFR変動を導入し、その収束性を証明し、転送性能を保証する。
関数近似を用いたSFRによる実験的評価は、一般報酬関数だけでなく、線形分解可能な報酬関数においても、SFよりも有利であることを示す。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文 参考訳(メタデータ) (2024-05-24T20:30:14Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement
Learning [20.12564350629561]
強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。
標準RLアルゴリズムは単一の報酬関数にのみ適用でき、すぐに見つからない報酬関数に適応できない。
我々は、報酬関数から値関数にマップする演算子を直接近似できる強化学習の一般的な演算子視点を提唱する。
論文 参考訳(メタデータ) (2022-01-01T19:52:38Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。