Fugu-MT 論文翻訳(概要): Successor Feature Representations

論文の概要: Successor Feature Representations

arxiv url: http://arxiv.org/abs/2110.15701v4
Date: Wed, 2 Aug 2023 09:14:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 18:32:47.632722
Title: Successor Feature Representations
Title（参考訳）: 継承的特徴表現
Authors: Chris Reinke, Xavier Alameda-Pineda
Abstract要約: 強化学習における伝達は、経験豊富なソースタスクからの知識を用いて、目標タスクにおける学習パフォーマンスを改善することを目的としている。継承表現(SR)とその拡張継承特徴(SF)は、タスク間で報酬関数が変化する領域において顕著な伝達機構である。本稿では,後継特徴量の累積割引確率を学習したSRの新たな定式化を提案する。
参考スコア（独自算出の注目度）: 20.91847255769988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transfer in Reinforcement Learning aims to improve learning performance on target tasks using knowledge from experienced source tasks. Successor Representations (SR) and their extension Successor Features (SF) are prominent transfer mechanisms in domains where reward functions change between tasks. They reevaluate the expected return of previously learned policies in a new target task to transfer their knowledge. The SF framework extended SR by linearly decomposing rewards into successor features and a reward weight vector allowing their application in high-dimensional tasks. But this came with the cost of having a linear relationship between reward functions and successor features, limiting its application to tasks where such a linear relationship exists. We propose a novel formulation of SR based on learning the cumulative discounted probability of successor features, called Successor Feature Representations (SFR). Crucially, SFR allows to reevaluate the expected return of policies for general reward functions. We introduce different SFR variations, prove its convergence, and provide a guarantee on its transfer performance. Experimental evaluations based on SFR with function approximation demonstrate its advantage over SF not only for general reward functions, but also in the case of linearly decomposable reward functions.
Abstract（参考訳）: 強化学習の伝達は、経験豊富なソースタスクからの知識を使用して、ターゲットタスクの学習性能を向上させることを目的としている。 successor representations (sr) と extension successor features (sf) は、報酬関数がタスク間で変化するドメインにおける顕著な転送メカニズムである。彼らは、知識を伝達するための新しい目標タスクにおいて、学習済みのポリシーの期待した回帰を再評価する。 SFフレームワークは、報酬を後継特徴に線形に分解することでSRを拡張し、高次元タスクに応用できる報酬重みベクトルを開発した。しかし、これは報酬関数と後継機能の間に線形関係を持つコストが伴い、そのような線形関係が存在するタスクにその適用を制限した。本稿では,後継特徴表現(SFR)の累積割引確率を学習したSRの新たな定式化を提案する。重要なことは、SFRは一般的な報酬関数に対するポリシーの再評価を可能にする。我々は、異なるSFR変動を導入し、その収束性を証明し、転送性能を保証する。関数近似を用いたSFRによる実験的評価は、一般報酬関数だけでなく、線形分解可能な報酬関数においても、SFよりも有利であることを示す。

関連論文リスト

Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。 SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2025-04-22T21:09:33Z)
Towards Understanding the Benefit of Multitask Representation Learning in Decision Process [47.57497888077687]
強化学習(RL)におけるサンプル効率向上のための多タスク表現学習(MRL)が主流となっている。本研究は,テキストを未知の非線形表現に拡張し,そのメカニズムを網羅的に分析することで,そのギャップを埋めようとしている。我々は、この手法が、M$別のタスクを学習する際の下位境界よりも優れており、一般関数クラスにおけるMRLの有効性の最初の実証となることを正式に証明する。
論文参考訳（メタデータ） (2025-03-01T04:29:22Z)
Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning [0.5524804393257919]
報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
論文参考訳（メタデータ） (2025-02-03T12:32:50Z)
Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文参考訳（メタデータ） (2024-10-22T08:07:44Z)
Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文参考訳（メタデータ） (2024-09-12T12:56:24Z)
SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。 GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文参考訳（メタデータ） (2024-05-24T20:30:14Z)
Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2023-10-13T02:38:35Z)
Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。 LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文参考訳（メタデータ） (2022-06-01T05:16:39Z)
Invariance in Policy Optimisation and Partial Identifiability in Reward Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文参考訳（メタデータ） (2022-03-14T20:19:15Z)
Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement Learning [20.12564350629561]
強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。標準RLアルゴリズムは単一の報酬関数にのみ適用でき、すぐに見つからない報酬関数に適応できない。我々は、報酬関数から値関数にマップする演算子を直接近似できる強化学習の一般的な演算子視点を提唱する。
論文参考訳（メタデータ） (2022-01-01T19:52:38Z)
A New Representation of Successor Features for Transfer across Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文参考訳（メタデータ） (2021-07-18T12:37:05Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。