論文の概要: Xi-Learning: Successor Feature Transfer Learning for General Reward
Functions
- arxiv url: http://arxiv.org/abs/2110.15701v1
- Date: Fri, 29 Oct 2021 12:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:25:53.681100
- Title: Xi-Learning: Successor Feature Transfer Learning for General Reward
Functions
- Title(参考訳): Xi-Learning:汎用リワード関数の継承的特徴伝達学習
- Authors: Chris Reinke, Xavier Alameda-Pineda
- Abstract要約: 継承機能(SF)は、タスク間で報酬関数が変化する領域における顕著な伝達機構である。
本稿では,後継機能の累積割引確率を学習した新たなSFメカニズムである$xi$-learningを提案する。
$xi$-learningは、一般的な報酬関数のためのポリシーの再評価を可能にする。
- 参考スコア(独自算出の注目度): 23.652607692198792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer in Reinforcement Learning aims to improve learning performance on
target tasks using knowledge from experienced source tasks. Successor features
(SF) are a prominent transfer mechanism in domains where the reward function
changes between tasks. They reevaluate the expected return of previously
learned policies in a new target task and to transfer their knowledge. A
limiting factor of the SF framework is its assumption that rewards linearly
decompose into successor features and a reward weight vector. We propose a
novel SF mechanism, $\xi$-learning, based on learning the cumulative discounted
probability of successor features. Crucially, $\xi$-learning allows to
reevaluate the expected return of policies for general reward functions. We
introduce two $\xi$-learning variations, prove its convergence, and provide a
guarantee on its transfer performance. Experimental evaluations based on
$\xi$-learning with function approximation demonstrate the prominent advantage
of $\xi$-learning over available mechanisms not only for general reward
functions, but also in the case of linearly decomposable reward functions.
- Abstract(参考訳): 強化学習の伝達は、経験豊富なソースタスクからの知識を使用して、ターゲットタスクの学習性能を向上させることを目的としている。
継承機能(SF)は、タスク間で報酬関数が変化する領域における顕著な伝達機構である。
彼らは、学習済みのポリシーを新しい目標タスクで再評価し、知識を伝達する。
SFフレームワークの制限要因は、報酬は後続の特徴と報酬重みベクトルに線形に分解されるという仮定である。
本稿では,後継機能の累積割引確率を学習した新たなSFメカニズムである$\xi$-learningを提案する。
重要なことに、$\xi$-learningは一般的な報酬関数に対するポリシーの再帰を再評価することができる。
2つの$\xi$-learningのバリエーションを導入し、その収束性を証明し、転送性能を保証する。
関数近似を用いた$\xi$-learningに基づく実験評価は、一般報酬関数だけでなく、線形分解可能な報酬関数の場合においても、利用可能なメカニズムよりも$\xi$-learningの顕著な優位性を示す。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文 参考訳(メタデータ) (2024-05-24T20:30:14Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement
Learning [20.12564350629561]
強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。
標準RLアルゴリズムは単一の報酬関数にのみ適用でき、すぐに見つからない報酬関数に適応できない。
我々は、報酬関数から値関数にマップする演算子を直接近似できる強化学習の一般的な演算子視点を提唱する。
論文 参考訳(メタデータ) (2022-01-01T19:52:38Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。