論文の概要: Locally Constrained Representations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.09441v1
- Date: Tue, 20 Sep 2022 03:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:43:21.156264
- Title: Locally Constrained Representations in Reinforcement Learning
- Title(参考訳): 強化学習における局所制約表現
- Authors: Somjit Nath and Samira Ebrahimi Kahou
- Abstract要約: 強化学習の成功は、環境観察から堅牢な表現を学ぶ能力に大きく依存している。
ほとんどの場合、強化学習損失によって純粋に学習された表現は、値関数がどのように変化するかによって州によって大きく異なる。
本稿では, 局所的な制約付き表現を提案する。そこでは, 補助的損失により, 隣接する状態の表現によって状態表現が予測可能となる。
- 参考スコア(独自算出の注目度): 8.590630594779677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of Reinforcement Learning (RL) heavily relies on the ability to
learn robust representations from the observations of the environment. In most
cases, the representations learned purely by the reinforcement learning loss
can differ vastly across states depending on how the value functions change.
However, the representations learned need not be very specific to the task at
hand. Relying only on the RL objective may yield representations that vary
greatly across successive time steps. In addition, since the RL loss has a
changing target, the representations learned would depend on how good the
current values/policies are. Thus, disentangling the representations from the
main task would allow them to focus more on capturing transition dynamics which
can improve generalization. To this end, we propose locally constrained
representations, where an auxiliary loss forces the state representations to be
predictable by the representations of the neighbouring states. This encourages
the representations to be driven not only by the value/policy learning but also
self-supervised learning, which constrains the representations from changing
too rapidly. We evaluate the proposed method on several known benchmarks and
observe strong performance. Especially in continuous control tasks, our
experiments show a significant advantage over a strong baseline.
- Abstract(参考訳): 強化学習(rl)の成功は、環境の観察から堅牢な表現を学ぶ能力に大きく依存している。
ほとんどの場合、強化学習損失によって純粋に学習された表現は、値関数がどのように変化するかによって州によって大きく異なる。
しかし、学んだ表現は、目の前のタスクにあまり具体的ではない。
RL の目的にのみ依存すると、連続する時間ステップで大きく異なる表現が得られる。
さらに、rl損失はターゲットが変化するため、学習した表現は現在の値や政治家の良さに依存します。
したがって、メインタスクから表現を遠ざけることで、一般化を改善するトランジションダイナミクスのキャプチャにもっと集中することができる。
この目的のために、補助的損失により状態表現が隣接状態の表現によって予測可能となる局所的制約付き表現を提案する。
これにより、表現は価値/政治学習だけでなく、自己監督学習によっても駆動され、表現が急激な変化を妨げます。
提案手法をいくつかの既知のベンチマークで評価し,高い性能を示す。
特に連続制御タスクでは,実験は強いベースラインに対して大きな優位性を示す。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Harnessing Discrete Representations For Continual Reinforcement Learning [8.61539229796467]
強化学習の文脈における分類的価値のベクトルとして観測を表現することの利点について検討する。
従来の連続表現と比較すると、離散表現よりも学習した世界モデルは、キャパシティの少ない世界のより正確なモデルであることが分かる。
論文 参考訳(メタデータ) (2023-12-02T18:55:26Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Representation Learning in Deep RL via Discrete Information Bottleneck [39.375822469572434]
本研究では,タスク非関連情報の存在下で,潜在状態を効率的に構築するために,情報のボトルネックを利用する方法について検討する。
本稿では,RepDIBとよばれる変動的および離散的な情報のボトルネックを利用して,構造化された因子化表現を学習するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-28T14:38:12Z) - Neural Distillation as a State Representation Bottleneck in
Reinforcement Learning [4.129225533930966]
蒸留は, 良好な特性を示す状態表現の学習に有効であると主張する。
本稿では,これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証する。
論文 参考訳(メタデータ) (2022-10-05T13:00:39Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Odd-One-Out Representation Learning [1.6822770693792826]
ランダム・ワン・アウト観測に基づく下流の弱教師付きタスクがモデル選択に適していることを示す。
また,この課題を高度に遂行する,目覚しいメトリック学習型VAEモデルが,他の標準の教師なしおよび弱教師付きアンタングルメントモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-14T22:01:15Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。