Fugu-MT 論文翻訳(概要): $\pi2\text{vec}$: Policy Representations with Successor Features

論文の概要: $\pi2\text{vec}$: Policy Representations with Successor Features

arxiv url: http://arxiv.org/abs/2306.09800v1
Date: Fri, 16 Jun 2023 12:19:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 13:59:44.903371
Title: $\pi2\text{vec}$: Policy Representations with Successor Features
Title（参考訳）: $\pi2\text{vec}$: 継承機能付きポリシー表現
Authors: Gianluca Scarpellini, Ksenia Konyushkova, Claudio Fantacci, Tom Le Paine, Yutian Chen, Misha Denil
Abstract要約: 政策表現は、基本モデルの統計が政策行動に応じてどのように変化するかをキャプチャする。オフラインデータからトレーニングすることができ、オフラインポリシー選択で使用することができる。
参考スコア（独自算出の注目度）: 8.358025481990044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes $\pi2\text{vec}$, a method for representing behaviors of black box policies as feature vectors. The policy representations capture how the statistics of foundation model features change in response to the policy behavior in a task agnostic way, and can be trained from offline data, allowing them to be used in offline policy selection. This work provides a key piece of a recipe for fusing together three modern lines of research: Offline policy evaluation as a counterpart to offline RL, foundation models as generic and powerful state representations, and efficient policy selection in resource constrained environments.
Abstract（参考訳）: 本稿では,ブラックボックスポリシーの挙動を特徴ベクトルとして表現する手法である$\pi2\text{vec}$について述べる。ポリシー表現は、基本モデルの統計が、タスクに依存しない方法でポリシー行動に応答してどのように変化するかを捉え、オフラインデータからトレーニングし、オフラインポリシー選択で使用することができる。この研究は、オフラインのRLに対抗してオフラインポリシー評価、汎用的で強力な状態表現としての基盤モデル、リソース制約された環境における効率的なポリシー選択という、3つの近代的な研究を融合するためのレシピの重要な要素を提供する。

関連論文リスト

EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。提案手法は, 従来手法に比べて試料効率を最大2～3倍向上させる。
論文参考訳（メタデータ） (2025-07-10T17:57:46Z)
Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies [5.5938591697033555]
スパース連続ポリシー(sparse continuous policy)は、ランダムにいくつかのアクションを選択するが、他のアクションの確率を厳密にゼロにする分布である。本稿では,Fat-to-Thin Policy Optimization (FtTPO) という,この問題に対処する最初のオフラインポリシ最適化アルゴリズムを提案する。 FtTPOを、ヘビーテールとスパースポリシーの両方を含む一般的な$q$-Gaussianファミリーでインスタンス化する。
論文参考訳（メタデータ） (2025-01-24T10:11:48Z)
Policy Regularization with Dataset Constraint for Offline Reinforcement Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。 PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文参考訳（メタデータ） (2023-06-11T03:02:10Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文参考訳（メタデータ） (2022-11-02T11:36:06Z)
Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。規則化手法は学習方針と行動方針の分岐を減少させる。本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文参考訳（メタデータ） (2022-02-13T07:38:36Z)
Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。 MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文参考訳（メタデータ） (2022-02-07T04:15:20Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation for Reinforcement Learning [43.61029925616256]
強化学習(RL)におけるオフラインポリシー評価は、実生活アプリケーションにRLを適用するための重要なステップである。ポリシクラス$Pi$ -- OPEの統一収束を同時に評価することで、この問題に対処する。以上の結果から,モデルベースプランニングにより,$widetildeO(H3/d_mepsilon2)$の最適なエピソード複雑性を達成できることが示唆された。
論文参考訳（メタデータ） (2020-07-07T19:44:14Z)
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文参考訳（メタデータ） (2020-06-10T16:02:08Z)
Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文参考訳（メタデータ） (2020-02-26T23:00:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。