論文の概要: Temporal Disentanglement of Representations for Improved Generalisation
in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.05480v1
- Date: Tue, 12 Jul 2022 11:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 20:56:08.069495
- Title: Temporal Disentanglement of Representations for Improved Generalisation
in Reinforcement Learning
- Title(参考訳): 強化学習における一般化のための表現の時間的分散
- Authors: Mhairi Dunion, Trevor McInroe, Kevin Luck, Josiah Hanna, Stefano V.
Albrecht
- Abstract要約: 実世界のロボット工学の応用において、強化学習(RL)エージェントは、訓練中に観察されなかった環境変動に一般化できないことが多い。
本稿では,RL観測の逐次的性質を用いて,自己教師付き補助課題であるテポラル・ディスタングルメント(TED)を紹介した。
TEDを補助タスクとするRLアルゴリズムは、最先端の表現学習法と比較して、継続トレーニングによる環境変数の変化により迅速に適応する。
- 参考スコア(独自算出の注目度): 7.972204774778987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world robotics applications, Reinforcement Learning (RL) agents are
often unable to generalise to environment variations that were not observed
during training. This issue is intensified for image-based RL where a change in
one variable, such as the background colour, can change many pixels in the
image, and in turn can change all values in the agent's internal representation
of the image. To learn more robust representations, we introduce TEmporal
Disentanglement (TED), a self-supervised auxiliary task that leads to
disentangled representations using the sequential nature of RL observations. We
find empirically that RL algorithms with TED as an auxiliary task adapt more
quickly to changes in environment variables with continued training compared to
state-of-the-art representation learning methods. Due to the disentangled
structure of the representation, we also find that policies trained with TED
generalise better to unseen values of variables irrelevant to the task (e.g.
background colour) as well as unseen values of variables that affect the
optimal policy (e.g. goal positions).
- Abstract(参考訳): 実世界のロボット工学では、強化学習(rl)エージェントは訓練中に観察されなかった環境変化に一般化できないことが多い。
この問題は、背景色のような1つの変数の変化が画像内の多くのピクセルを変更でき、また、エージェントの内部表現のすべての値を変更できる画像ベースRLに対して強化される。
よりロバストな表現を学習するために,RL観測の逐次的性質を用いた自己教師付き補助タスクであるTEPORAL Disentanglement(TED)を導入する。
TEDを補助タスクとするRLアルゴリズムは、最先端の表現学習法と比較して、継続トレーニングによる環境変数の変化により迅速に適応する。
表象の歪んだ構造のため、TEDで訓練されたポリシーは、タスク(例えば背景色)に無関係な変数の値や、最適なポリシー(例えばゴール位置)に影響を与える変数の未表示値をより一般化する。
関連論文リスト
- Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。
視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。
実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-16T06:53:00Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。
これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。
背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文 参考訳(メタデータ) (2021-02-26T02:24:36Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics [60.92229707497999]
画像の特定の変換の識別に基づく自己教師型特徴学習の新しい原理を提案する。
実験により,LCI,画像ワープ,回転などの変換を識別する学習が,技術一般化能力の状態を特徴付けることを示した。
論文 参考訳(メタデータ) (2020-04-05T22:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。