論文の概要: CURLing the Dream: Contrastive Representations for World Modeling in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.05781v2
- Date: Sat, 31 Aug 2024 21:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 16:51:50.581152
- Title: CURLing the Dream: Contrastive Representations for World Modeling in Reinforcement Learning
- Title(参考訳): CURLing the Dream: Reinforcement Learningにおける世界モデリングの対照的な表現
- Authors: Victor Augusto Kich, Jair Augusto Bottega, Raul Steinmetz, Ricardo Bedin Grando, Ayano Yorozu, Akihisa Ohya,
- Abstract要約: Curled-Dreamerは、コントラスト学習をDreamerV3フレームワークに統合する、新しい強化学習アルゴリズムである。
我々の実験では、Curled-Dreamerは最先端のアルゴリズムより一貫して優れています。
- 参考スコア(独自算出の注目度): 0.22615818641180724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present Curled-Dreamer, a novel reinforcement learning algorithm that integrates contrastive learning into the DreamerV3 framework to enhance performance in visual reinforcement learning tasks. By incorporating the contrastive loss from the CURL algorithm and a reconstruction loss from autoencoder, Curled-Dreamer achieves significant improvements in various DeepMind Control Suite tasks. Our extensive experiments demonstrate that Curled-Dreamer consistently outperforms state-of-the-art algorithms, achieving higher mean and median scores across a diverse set of tasks. The results indicate that the proposed approach not only accelerates learning but also enhances the robustness of the learned policies. This work highlights the potential of combining different learning paradigms to achieve superior performance in reinforcement learning applications.
- Abstract(参考訳): 本稿では,DreamerV3フレームワークにコントラスト学習を統合した新しい強化学習アルゴリズムであるCurled-Dreamerを紹介する。
CURLアルゴリズムからの対照的な損失とオートエンコーダからの再構成損失を取り入れることで、Curled-DreamerはDeepMind Control Suiteタスクにおいて大幅な改善を実現している。
我々の広範な実験により、Curled-Dreamerは最先端のアルゴリズムを一貫して上回り、さまざまなタスクセットの平均と中央値のスコアを達成している。
その結果,提案手法は学習を促進させるだけでなく,学習方針の堅牢性を高めることが示唆された。
この研究は、強化学習アプリケーションにおいて優れた性能を達成するために、異なる学習パラダイムを組み合わせる可能性を強調している。
関連論文リスト
- Learning Representation for Multitask learning through Self Supervised Auxiliary learning [3.236198583140341]
ハードパラメータ共有アプローチでは、複数のタスクを通して共有されるエンコーダは、タスク固有の予測子に渡されるデータ表現を生成する。
共有エンコーダが生成する表現の普遍性を改善することを目的としたダミー勾配ノルム正規化を提案する。
DGRは共有表現の品質を効果的に向上し、マルチタスク予測性能が向上することを示す。
論文 参考訳(メタデータ) (2024-09-25T06:08:35Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - MuDreamer: Learning Predictive World Models without Reconstruction [58.0159270859475]
本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。
本手法は,Atari100kベンチマークにおいて,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T22:09:01Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。
我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文 参考訳(メタデータ) (2023-10-04T10:09:12Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Dreaming: Model-based Reinforcement Learning by Latent Imagination
without Reconstruction [14.950054143767824]
本稿では,Dreamerのデコーダフリー拡張を提案する。
我々は,ドリーマーの限界の低い証拠から,コントラスト学習という,可能性のないInfoMax目標を導出する。
新たに考案したDreamer with InfoMax and without Generative decoder (Dreaming)は,Dreamerや他のモデルレス強化学習手法と比較して,5つの困難なロボットタスクにおいて最高のスコアを得る。
論文 参考訳(メタデータ) (2020-07-29T00:14:40Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。