論文の概要: Return-Based Contrastive Representation Learning for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.10960v1
- Date: Mon, 22 Feb 2021 13:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:49:25.938615
- Title: Return-Based Contrastive Representation Learning for Reinforcement
Learning
- Title(参考訳): 再帰型コントラスト表現学習による強化学習
- Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li,
Nenghai Yu, Tie-Yan Liu
- Abstract要約: そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
- 参考スコア(独自算出の注目度): 126.7440353288838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, various auxiliary tasks have been proposed to accelerate
representation learning and improve sample efficiency in deep reinforcement
learning (RL). However, existing auxiliary tasks do not take the
characteristics of RL problems into consideration and are unsupervised. By
leveraging returns, the most important feedback signals in RL, we propose a
novel auxiliary task that forces the learnt representations to discriminate
state-action pairs with different returns. Our auxiliary loss is theoretically
justified to learn representations that capture the structure of a new form of
state-action abstraction, under which state-action pairs with similar return
distributions are aggregated together. In low data regime, our algorithm
outperforms strong baselines on complex tasks in Atari games and DeepMind
Control suite, and achieves even better performance when combined with existing
auxiliary tasks.
- Abstract(参考訳): 近年, 深部強化学習(RL)における表現学習の高速化とサンプル効率向上のために, 様々な補助的タスクが提案されている。
しかし、既存の補助タスクはRL問題の特徴を考慮に入れておらず、監督されていません。
rlにおける最も重要なフィードバック信号である戻り値を活用することで、学習表現に異なる戻り値を持つ状態-動作ペアを識別させる新しい補助タスクを提案する。
我々の補助的損失は、新しい状態-作用抽象化の構造を捉えた表現を学習するために理論的に正当化され、そこでは、同様の戻り分布を持つ状態-作用対が集約される。
低データ体制では、アルゴリズムはAtariゲームやDeepMindコントロールスイートの複雑なタスクの強力なベースラインを上回り、既存の補助タスクと組み合わせることでさらに優れたパフォーマンスを実現します。
関連論文リスト
- Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL [16.792949555151978]
再構成や対照的な損失を用いた自己教師型表現の学習は、画像ベース・マルチモーダル強化学習(RL)の性能とサンプルの複雑さを向上させる
ここでは、異なる自己教師付き損失関数は、基礎となるセンサのモジュラリティの情報密度によって異なる利点と制限を有する。
コントラスト的再構成集約表現学習(CoRAL)を提案する。このフレームワークは,各センサのモダリティに対して,最も適切な自己管理的損失を選択することができる。
論文 参考訳(メタデータ) (2023-02-10T15:57:20Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Reinforcement Learning with Automated Auxiliary Loss Search [34.83123677004838]
補助的損失関数を用いたより良い表現を学習するための原理的,普遍的な手法を提案する。
具体的には、7.5×1020$の一般的な補助損失空間を定義し、効率的な進化的探索戦略を用いて空間を探索する。
その結果, 高次元(イメージ)と低次元(ベクター)の両タスクにおいて, 補助的損失が有意に改善されることが判明した。
論文 参考訳(メタデータ) (2022-10-12T09:24:53Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Intrinsically Motivated Self-supervised Learning in Reinforcement
Learning [15.809835721792687]
視覚に基づく強化学習(RL)タスクでは、補助タスクに自己監督的損失を割り当てることが一般的である。
強化学習(IM-SSR)における本質的動機づけ型自己監督学習(Intivically Motivated Self-Supervised Learning)という,自己監督的損失を本質的な報酬として活用する,シンプルかつ効果的なアイデアを提案する。
自己監督的損失は、新しい状態の探索やニュアンス除去による改善として堅牢性を示す。
論文 参考訳(メタデータ) (2021-06-26T08:43:28Z) - REPAINT: Knowledge Transfer in Deep Reinforcement Learning [13.36223726517518]
本研究では,深層強化学習における知識伝達のためのRePresentation And IN Transfer (REPAINT)アルゴリズムを提案する。
RePAINTは、オンライン学習において、事前訓練された教師ポリシーの表現を伝達するだけでなく、利点に基づく経験選択アプローチを用いて、オフポリティ学習において教師ポリシーに従って収集された有用なサンプルを転送する。
論文 参考訳(メタデータ) (2020-11-24T01:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。