論文の概要: Contrastive Behavioral Similarity Embeddings for Generalization in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.05265v2
- Date: Thu, 18 Mar 2021 13:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 10:35:44.491117
- Title: Contrastive Behavioral Similarity Embeddings for Generalization in
Reinforcement Learning
- Title(参考訳): 強化学習における一般化のための対比行動類似性埋め込み
- Authors: Rishabh Agarwal, Marlos C. Machado, Pablo Samuel Castro, Marc G.
Bellemare
- Abstract要約: 状態間の行動類似度を測定するための理論的動機付け政策類似度指標(PSM)を導入する。
PSMは、これらの状態と将来の状態の最適ポリシーが類似している状態と高い類似性を割り当てる。
コントラッシブな表現学習手法を用いて任意の状態類似度指標を埋め込み、PSMをインスタンス化し、ポリシー類似度埋め込みを得る。
- 参考スコア(独自算出の注目度): 41.85795493411269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning methods trained on few environments rarely learn
policies that generalize to unseen environments. To improve generalization, we
incorporate the inherent sequential structure in reinforcement learning into
the representation learning process. This approach is orthogonal to recent
approaches, which rarely exploit this structure explicitly. Specifically, we
introduce a theoretically motivated policy similarity metric (PSM) for
measuring behavioral similarity between states. PSM assigns high similarity to
states for which the optimal policies in those states as well as in future
states are similar. We also present a contrastive representation learning
procedure to embed any state similarity metric, which we instantiate with PSM
to obtain policy similarity embeddings (PSEs). We demonstrate that PSEs improve
generalization on diverse benchmarks, including LQR with spurious correlations,
a jumping task from pixels, and Distracting DM Control Suite.
- Abstract(参考訳): 少数の環境で訓練された強化学習手法は、目に見えない環境に一般化する政策をほとんど学ばない。
一般化を改善するために,強化学習に内在する逐次構造を表現学習プロセスに組み込む。
このアプローチは最近のアプローチと直交しており、この構造を明示的に利用することは滅多にない。
具体的には、状態間の行動類似度を測定するための理論的動機付け政策類似度指標(PSM)を導入する。
PSMは、これらの状態と将来の状態の最適ポリシーが類似している状態と高い類似性を割り当てる。
また,psmをインスタンス化してポリシ類似度埋め込み(pses)を得る,状態類似度メトリックを組み込むためのコントラスト表現学習手順を提案する。
我々はPSEが、スプリアス相関付きLQR、画素からのジャンプタスク、DM制御スイートなどの様々なベンチマークの一般化を改善することを実証した。
関連論文リスト
- AgentMixer: Multi-Agent Correlated Policy Factorization [39.041191852287525]
エージェントがそれらのポリシーを関連付けるためのメカニズムを提供するために、テクストゥラティクスの修正を導入する。
本稿では,個別の可観測ポリシの非線形結合として,完全可観測ポリシを構成する新しいフレームワークであるAgentMixerを提案する。
AgentMixerは$epsilon$-approximate Correlated Equilibriumに収束することを示す。
論文 参考訳(メタデータ) (2024-01-16T15:32:41Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Multi-Similarity Contrastive Learning [4.297070083645049]
本稿では,複数の類似度指標の監視を共同で活用することにより,一般化可能な埋め込みを学習する新しいマルチ相似コントラスト損失(MSCon)を提案する。
本手法は, 類似度の不確実性に基づいて, 比較類似度重み付けを自動的に学習する。
我々は、MSConでトレーニングされたネットワークが、ドメイン内およびドメイン外設定で最先端のベースラインより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-07-06T01:26:01Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。