論文の概要: Implicit Two-Tower Policies
- arxiv url: http://arxiv.org/abs/2208.01191v1
- Date: Tue, 2 Aug 2022 01:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:46:11.246179
- Title: Implicit Two-Tower Policies
- Title(参考訳): インシシシト2-tower Policies
- Authors: Yunfan Zhao, Qingkai Pan, Krzysztof Choromanski, Deepali Jain, Vikas
Sindhwani
- Abstract要約: 本稿では,学習可能な潜在表現の注意スコアと入力状態の注意スコアに基づいて行動を選択するImplicit Two-Tower(ITT)ポリシーという,構造化された強化学習ポリシーの新たなクラスを提案する。
政策スタックにおける状態処理からのアクションを明示的に切り離すことで、我々は2つの主要な目標 – 実質的な計算ゲインとより良いパフォーマンス – を達成できる。
- 参考スコア(独自算出の注目度): 20.052799075099326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new class of structured reinforcement learning
policy-architectures, Implicit Two-Tower (ITT) policies, where the actions are
chosen based on the attention scores of their learnable latent representations
with those of the input states. By explicitly disentangling action from state
processing in the policy stack, we achieve two main goals: substantial
computational gains and better performance. Our architectures are compatible
with both: discrete and continuous action spaces. By conducting tests on 15
environments from OpenAI Gym and DeepMind Control Suite, we show that
ITT-architectures are particularly suited for blackbox/evolutionary
optimization and the corresponding policy training algorithms outperform their
vanilla unstructured implicit counterparts as well as commonly used explicit
policies. We complement our analysis by showing how techniques such as hashing
and lazy tower updates, critically relying on the two-tower structure of ITTs,
can be applied to obtain additional computational improvements.
- Abstract(参考訳): 本稿では,学習可能な潜在表現と入力状態の注意スコアに基づいて行動を選択する,構造化強化学習方針-アーキテクチャ,暗黙の2-tower(itt)ポリシの新たなクラスを提案する。
政策スタックにおける状態処理からのアクションを明示的に切り離すことで、我々は2つの主要な目標 – 実質的な計算ゲインとより良いパフォーマンス – を達成できる。
私たちのアーキテクチャは、離散と連続のアクション空間の両方と互換性があります。
OpenAI GymとDeepMind Control Suiteの15の環境でテストを行うことで、ITTアーキテクチャは特にブラックボックス/進化的最適化に適しており、対応するポリシートレーニングアルゴリズムは、非構造化の暗黙的ポリシーだけでなく、一般的に使用される明示的なポリシーよりも優れています。
我々は,ITTの2tower構造に重きを置いて,ハッシュや遅延塔更新などの手法を適用すれば,さらなる計算精度の向上が期待できることを示す。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Learning Generalized Policies Without Supervision Using GNNs [20.322992960599255]
グラフニューラルネットワークを用いた古典的計画領域の一般政策学習の問題点を考察する。
我々は,単純で汎用的なGNNアーキテクチャを用いて,鮮明な実験結果を得ることを目的としている。
我々は、GNNの表現力と一階述語論理の$C_2$フラグメントの間に確立された関係を利用する。
論文 参考訳(メタデータ) (2022-05-12T10:28:46Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Intrusion Prevention through Optimal Stopping [0.0]
強化学習を用いた自動侵入防止について検討した。
当社のアプローチは,限られた規模の実践的なITインフラストラクチャに対して,効果的なディフェンダポリシを実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-30T17:03:28Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Decoupling Value and Policy for Generalization in Reinforcement Learning [20.08992844616678]
我々は、最適なポリシーを学ぶよりも、価値関数を正確に見積もるためにより多くの情報が必要であると論じる。
IDAAC(Invariant Decoupled Advantage Actor-Critic)の2つのアプローチを提案します。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
論文 参考訳(メタデータ) (2021-02-20T12:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。