論文の概要: Which Features are Best for Successor Features?
- arxiv url: http://arxiv.org/abs/2502.10790v1
- Date: Sat, 15 Feb 2025 13:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:13.805798
- Title: Which Features are Best for Successor Features?
- Title(参考訳): 継承機能に最適な機能は何か?
- Authors: Yann Ollivier,
- Abstract要約: 下流性能の客観的基準に基づいて最適な基本特徴を同定する。
これは、ランダムなゴール状態に達すること、密度の高いランダムなガウスの報酬、ランダムな分散のスパース報酬の3つのクラスに対して行われる。
我々は,KL-正規化オプション自然政策勾配,およびベルマンギャップのノルムにおけるSF情報の欠如について,新たな知見を得る。
- 参考スコア(独自算出の注目度): 9.228204655806236
- License:
- Abstract: In reinforcement learning, universal successor features (SFs) are a way to provide zero-shot adaptation to new tasks at test time: they provide optimal policies for all downstream reward functions lying in the linear span of a set of base features. But it is unclear what constitutes a good set of base features, that could be useful for a wide set of downstream tasks beyond their linear span. Laplacian eigenfunctions (the eigenfunctions of $\Delta+\Delta^\ast$ with $\Delta$ the Laplacian operator of some reference policy and $\Delta^\ast$ that of the time-reversed dynamics) have been argued to play a role, and offer good empirical performance. Here, for the first time, we identify the optimal base features based on an objective criterion of downstream performance, in a non-tautological way without assuming the downstream tasks are linear in the features. We do this for three generic classes of downstream tasks: reaching a random goal state, dense random Gaussian rewards, and random ``scattered'' sparse rewards. The features yielding optimal expected downstream performance turn out to be the \emph{same} for these three task families. They do not coincide with Laplacian eigenfunctions in general, though they can be expressed from $\Delta$: in the simplest case (deterministic environment and decay factor $\gamma$ close to $1$), they are the eigenfunctions of $\Delta^{-1}+(\Delta^{-1})^\ast$. We obtain these results under an assumption of large behavior cloning regularization with respect to a reference policy, a setting often used for offline RL. Along the way, we get new insights into KL-regularized\option{natural} policy gradient, and into the lack of SF information in the norm of Bellman gaps.
- Abstract(参考訳): 強化学習では、Universal successor features (SF) は、テスト時に新しいタスクにゼロショット適応を提供する方法である。
しかし、どのセットが良いベース機能を構成しているのかは不明であり、これはリニアスパンを超えて幅広いダウンストリームタスクに役立ちます。
ラプラシアン固有函数(英語版) ($\Delta+\Delta^\ast$ with $\Delta$ the Laplacian operator of some reference policy and $\Delta^\ast$ of the time-reversed dynamics) は、ある役割を担い、優れた経験的性能を提供する。
ここでは,下流タスクが線形であることを前提にせずに,下流性能の客観的基準に基づく最適基本特徴を非自閉症的手法で初めて同定する。
下流タスクの一般的なクラスとして、ランダムなゴール状態に到達すること、密度の高いランダムなガウス報酬、ランダムな ``scattered'' のスパース報酬の3つを挙げる。
これら3つのタスクファミリのemph{same}が最適なダウンストリーム性能が得られる。
それらは一般にラプラシア固有関数とは一致しないが、最も単純な場合(決定論的環境と崩壊係数)において$\gamma$は$\Delta^{-1}+(\Delta^{-1})^\ast$の固有関数である。
これらの結果は、オフラインのRLによく使用される基準ポリシーに関して、大規模な行動クローン規則化の仮定の下で得られる。
その過程で、KL-regularized\option{natural}ポリシー勾配、およびベルマンギャップのノルムにおけるSF情報の欠如に関する新たな洞察を得る。
関連論文リスト
- Use of Simple Arithmetic Operations to Construct Efficiently Implementable Boolean functions Possessing High Nonlinearity and Good Resistance to Algebraic Attacks [28.8640336189986]
非線形性と(高速)代数免疫の組合せを達成できる関数が存在することを示す。
提案手法の主な特徴は、ブール関数の構成に単純整数と二進体算術の司法的組み合わせを適用することである。
論文 参考訳(メタデータ) (2024-08-21T12:46:50Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Nonsmooth Nonparametric Regression via Fractional Laplacian Eigenmaps [15.738019181349992]
真の回帰関数が必ずしも滑らかでない場合に、非パラメトリック回帰法を開発する。
より具体的には、我々のアプローチは分数ラプラシアンを使い、真の回帰関数が次数$sin (0,1)$のソボレフ空間にある場合を扱うように設計されている。
論文 参考訳(メタデータ) (2024-02-22T21:47:29Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Provably Efficient Generative Adversarial Imitation Learning for Online
and Offline Setting with Linear Function Approximation [81.0955457177017]
GAIL(Generative Adversarial mimicion Learning)では、特定の報酬セットにおいて、専門家の政策からそのパフォーマンスを区別できないように、専門家のデモンストレーションからポリシーを学習することを目的としている。
GAILをオンラインとオフラインの両方で線形関数近似を用いて検討し、その変換関数と報酬関数は特徴写像において線形である。
論文 参考訳(メタデータ) (2021-08-19T16:16:00Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - On Query-efficient Planning in MDPs under Linear Realizability of the
Optimal State-value Function [14.205660708980988]
固定水平マルコフ決定過程(MDP)における局所的計画の問題点を生成モデルを用いて考察する。
最近の下界は、最適ポリシーの作用値関数が線形に実現可能である場合の関連する問題は指数的なクエリ数を必要とすることを証明している。
本研究では,アクションセットが小さい場合,ポリ$(H, d)$学習が(状態値関数の実現可能性を持つ)可能であることを確かめる。
論文 参考訳(メタデータ) (2021-02-03T13:23:15Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。