論文の概要: Contrastive Behavioral Similarity Embeddings for Generalization in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.05265v2
- Date: Thu, 18 Mar 2021 13:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 10:35:44.491117
- Title: Contrastive Behavioral Similarity Embeddings for Generalization in
Reinforcement Learning
- Title(参考訳): 強化学習における一般化のための対比行動類似性埋め込み
- Authors: Rishabh Agarwal, Marlos C. Machado, Pablo Samuel Castro, Marc G.
Bellemare
- Abstract要約: 状態間の行動類似度を測定するための理論的動機付け政策類似度指標(PSM)を導入する。
PSMは、これらの状態と将来の状態の最適ポリシーが類似している状態と高い類似性を割り当てる。
コントラッシブな表現学習手法を用いて任意の状態類似度指標を埋め込み、PSMをインスタンス化し、ポリシー類似度埋め込みを得る。
- 参考スコア(独自算出の注目度): 41.85795493411269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning methods trained on few environments rarely learn
policies that generalize to unseen environments. To improve generalization, we
incorporate the inherent sequential structure in reinforcement learning into
the representation learning process. This approach is orthogonal to recent
approaches, which rarely exploit this structure explicitly. Specifically, we
introduce a theoretically motivated policy similarity metric (PSM) for
measuring behavioral similarity between states. PSM assigns high similarity to
states for which the optimal policies in those states as well as in future
states are similar. We also present a contrastive representation learning
procedure to embed any state similarity metric, which we instantiate with PSM
to obtain policy similarity embeddings (PSEs). We demonstrate that PSEs improve
generalization on diverse benchmarks, including LQR with spurious correlations,
a jumping task from pixels, and Distracting DM Control Suite.
- Abstract(参考訳): 少数の環境で訓練された強化学習手法は、目に見えない環境に一般化する政策をほとんど学ばない。
一般化を改善するために,強化学習に内在する逐次構造を表現学習プロセスに組み込む。
このアプローチは最近のアプローチと直交しており、この構造を明示的に利用することは滅多にない。
具体的には、状態間の行動類似度を測定するための理論的動機付け政策類似度指標(PSM)を導入する。
PSMは、これらの状態と将来の状態の最適ポリシーが類似している状態と高い類似性を割り当てる。
また,psmをインスタンス化してポリシ類似度埋め込み(pses)を得る,状態類似度メトリックを組み込むためのコントラスト表現学習手順を提案する。
我々はPSEが、スプリアス相関付きLQR、画素からのジャンプタスク、DM制御スイートなどの様々なベンチマークの一般化を改善することを実証した。
関連論文リスト
- Learning in complex action spaces without policy gradients [8.81420331399616]
そこで本研究では,QMLEを制御可能な計算コストで複雑な行動空間に適用できることを示す。
QMLEは、最先端の方法と比較しても、DeepMind Control Suite上で強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-08T19:49:34Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - AgentMixer: Multi-Agent Correlated Policy Factorization [39.041191852287525]
エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。
本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
論文 参考訳(メタデータ) (2024-01-16T15:32:41Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Multi-Similarity Contrastive Learning [4.297070083645049]
本稿では,複数の類似度指標の監視を共同で活用することにより,一般化可能な埋め込みを学習する新しいマルチ相似コントラスト損失(MSCon)を提案する。
本手法は, 類似度の不確実性に基づいて, 比較類似度重み付けを自動的に学習する。
我々は、MSConでトレーニングされたネットワークが、ドメイン内およびドメイン外設定で最先端のベースラインより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-07-06T01:26:01Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。