論文の概要: TACO: Temporal Latent Action-Driven Contrastive Loss for Visual
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.13229v1
- Date: Thu, 22 Jun 2023 22:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:05:39.647618
- Title: TACO: Temporal Latent Action-Driven Contrastive Loss for Visual
Reinforcement Learning
- Title(参考訳): TACO:視覚強化学習のための時間遅延行動駆動型コントラスト損失
- Authors: Ruijie Zheng, Xiyao Wang, Yanchao Sun, Shuang Ma, Jieyu Zhao, Huazhe
Xu, Hal Daum\'e III, and Furong Huang
- Abstract要約: 時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 34.025185340684445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in reinforcement learning (RL) from raw pixel data,
sample inefficiency continues to present a substantial obstacle. Prior works
have attempted to address this challenge by creating self-supervised auxiliary
tasks, aiming to enrich the agent's learned representations with
control-relevant information for future state prediction. However, these
objectives are often insufficient to learn representations that can represent
the optimal policy or value function, and they often consider tasks with small,
abstract discrete action spaces and thus overlook the importance of action
representation learning in continuous control. In this paper, we introduce
TACO: Temporal Action-driven Contrastive Learning, a simple yet powerful
temporal contrastive learning approach that facilitates the concurrent
acquisition of latent state and action representations for agents. TACO
simultaneously learns a state and an action representation by optimizing the
mutual information between representations of current states paired with action
sequences and representations of the corresponding future states.
Theoretically, TACO can be shown to learn state and action representations that
encompass sufficient information for control, thereby improving sample
efficiency. For online RL, TACO achieves 40% performance boost after one
million environment interaction steps on average across nine challenging visual
continuous control tasks from Deepmind Control Suite. In addition, we show that
TACO can also serve as a plug-and-play module adding to existing offline visual
RL methods to establish the new state-of-the-art performance for offline visual
RL across offline datasets with varying quality.
- Abstract(参考訳): 近年, 原画素データからの強化学習(RL)の進歩にもかかわらず, 試料の非効率性はかなりの障害を呈し続けている。
以前の研究は、将来の状態予測のためにエージェントの学習した表現を制御関連情報と共に強化することを目的として、自己監督の補助タスクを作成することで、この問題に対処しようとした。
しかし、これらの目的はしばしば最適なポリシーや値関数を表現できる表現を学ぶのに不十分であり、小さな抽象的な行動空間を持つタスクをよく考慮し、連続的な制御における行動表現学習の重要性を見落としている。
本稿では,エージェントの潜伏状態と行動表現の同時獲得を容易にする,シンプルながら強力な時間的コントラスト学習手法であるTACOを紹介する。
TACOは、動作シーケンスと組み合わせた現在の状態の表現と、対応する将来の状態の表現との相互情報を最適化することにより、状態と行動表現を同時に学習する。
理論的には、TACOは制御に十分な情報を含む状態と行動表現を学習し、サンプル効率を向上させることができる。
オンラインRLでは、Deepmind Control Suiteの9つの挑戦的な視覚的連続制御タスクに対して、平均100万の環境インタラクションステップを経て、TACOは40%のパフォーマンス向上を達成した。
さらに,既存のオフライン visual rl メソッドにプラグイン・アンド・プレイモジュールを追加して,オフライン visual rl のオフラインパフォーマンスを,品質の異なるオフラインデータセット間で確立することも可能だ。
関連論文リスト
- Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning [12.277005054008017]
視覚強化学習(RL)では、上流表現学習が下流政策学習の効果を決定づける。
補助訓練データを充実させることで,RLの補助表現学習を改善する。
本研究では、将来の情報を含む可能性のある観測を合成するためのトレーニング不要な手法を提案する。
残りの合成観測と実観測は、クラスタリングに基づく時間的関連タスクを達成する補助データとして機能する。
論文 参考訳(メタデータ) (2024-05-20T02:43:04Z) - Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss [61.355272240758]
Premier-TACOはマルチタスクの特徴表現学習手法である。
シーケンシャルな意思決定タスクにおいて、数ショットのポリシー学習効率を改善するように設計されている。
論文 参考訳(メタデータ) (2024-02-09T05:04:40Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。