論文の概要: Augmenting Unsupervised Reinforcement Learning with Self-Reference
- arxiv url: http://arxiv.org/abs/2311.09692v1
- Date: Thu, 16 Nov 2023 09:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:34:41.120556
- Title: Augmenting Unsupervised Reinforcement Learning with Self-Reference
- Title(参考訳): 自己参照による教師なし強化学習の強化
- Authors: Andrew Zhao, Erle Zhu, Rui Lu, Matthieu Lin, Yong-Jin Liu, Gao Huang
- Abstract要約: 人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
- 参考スコア(独自算出の注目度): 63.68018737038331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess the ability to draw on past experiences explicitly when
learning new tasks and applying them accordingly. We believe this capacity for
self-referencing is especially advantageous for reinforcement learning agents
in the unsupervised pretrain-then-finetune setting. During pretraining, an
agent's past experiences can be explicitly utilized to mitigate the
nonstationarity of intrinsic rewards. In the finetuning phase, referencing
historical trajectories prevents the unlearning of valuable exploratory
behaviors. Motivated by these benefits, we propose the Self-Reference (SR)
approach, an add-on module explicitly designed to leverage historical
information and enhance agent performance within the pretrain-finetune
paradigm. Our approach achieves state-of-the-art results in terms of
Interquartile Mean (IQM) performance and Optimality Gap reduction on the
Unsupervised Reinforcement Learning Benchmark for model-free methods, recording
an 86% IQM and a 16% Optimality Gap. Additionally, it improves current
algorithms by up to 17% IQM and reduces the Optimality Gap by 31%. Beyond
performance enhancement, the Self-Reference add-on also increases sample
efficiency, a crucial attribute for real-world applications.
- Abstract(参考訳): 人間は、新しいタスクを学習し、それに応じて適用する際に、過去の経験を明示的に描く能力を持っている。
この自己参照能力は,教師なし事前学習環境における強化学習エージェントにとって特に有益である。
事前訓練中、エージェントの過去の経験を明示的に利用して、内在的な報酬の非定常性を軽減することができる。
微調整の段階では、歴史的軌跡を参照することは、貴重な探索行動の未学習を妨げる。
これらの利点を生かした自己参照(SR)アプローチは,歴史情報を活用するためのアドオンモジュールであり,プリトレイン・ファイントゥン・パラダイム内でのエージェント性能の向上を目的としている。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,モデルフリー手法の86%のIQMと16%の最適ギャップを記録できる。
さらに、現在のアルゴリズムを最大17%のIQMで改善し、最適化ギャップを31%削減する。
パフォーマンスの向上に加えて、自己参照アドオンは実世界のアプリケーションにとって重要な属性であるサンプル効率も向上する。
関連論文リスト
- Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Preserving Silent Features for Domain Generalization [6.568921669414849]
自己教師付きコントラスト学習事前学習モデルは、DG設定で同じデータセット上で事前訓練された教師付きモデルよりも優れた一般化性能を示す。
本稿では,STEP(Silent Feature Preservation)と呼ばれる簡易かつ効果的な手法を提案し,自己教師付きコントラスト学習事前学習モデルの一般化性能を向上させる。
論文 参考訳(メタデータ) (2024-01-06T09:11:41Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Representation Learning via Invariant Causal Mechanisms [19.0976564154636]
ラベルなしデータのみを用いて表現を事前学習することで、コストのかかる教師付き信号への依存を減らすための戦略として、自己教師付き学習が登場した。
プレトレーニング時に使用されるプロキシ分類器の明示的な不変性制約によって、データ拡張をより効果的に活用する方法を示す。
そこで本稿では,新たな自己教師型学習手法であるRepresentation Learning via In Causvariantal Mechanisms (Relic)を提案する。
論文 参考訳(メタデータ) (2020-10-15T17:53:37Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。