論文の概要: Augmenting Unsupervised Reinforcement Learning with Self-Reference
- arxiv url: http://arxiv.org/abs/2311.09692v1
- Date: Thu, 16 Nov 2023 09:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:34:41.120556
- Title: Augmenting Unsupervised Reinforcement Learning with Self-Reference
- Title(参考訳): 自己参照による教師なし強化学習の強化
- Authors: Andrew Zhao, Erle Zhu, Rui Lu, Matthieu Lin, Yong-Jin Liu, Gao Huang
- Abstract要約: 人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
- 参考スコア(独自算出の注目度): 63.68018737038331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess the ability to draw on past experiences explicitly when
learning new tasks and applying them accordingly. We believe this capacity for
self-referencing is especially advantageous for reinforcement learning agents
in the unsupervised pretrain-then-finetune setting. During pretraining, an
agent's past experiences can be explicitly utilized to mitigate the
nonstationarity of intrinsic rewards. In the finetuning phase, referencing
historical trajectories prevents the unlearning of valuable exploratory
behaviors. Motivated by these benefits, we propose the Self-Reference (SR)
approach, an add-on module explicitly designed to leverage historical
information and enhance agent performance within the pretrain-finetune
paradigm. Our approach achieves state-of-the-art results in terms of
Interquartile Mean (IQM) performance and Optimality Gap reduction on the
Unsupervised Reinforcement Learning Benchmark for model-free methods, recording
an 86% IQM and a 16% Optimality Gap. Additionally, it improves current
algorithms by up to 17% IQM and reduces the Optimality Gap by 31%. Beyond
performance enhancement, the Self-Reference add-on also increases sample
efficiency, a crucial attribute for real-world applications.
- Abstract(参考訳): 人間は、新しいタスクを学習し、それに応じて適用する際に、過去の経験を明示的に描く能力を持っている。
この自己参照能力は,教師なし事前学習環境における強化学習エージェントにとって特に有益である。
事前訓練中、エージェントの過去の経験を明示的に利用して、内在的な報酬の非定常性を軽減することができる。
微調整の段階では、歴史的軌跡を参照することは、貴重な探索行動の未学習を妨げる。
これらの利点を生かした自己参照(SR)アプローチは,歴史情報を活用するためのアドオンモジュールであり,プリトレイン・ファイントゥン・パラダイム内でのエージェント性能の向上を目的としている。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,モデルフリー手法の86%のIQMと16%の最適ギャップを記録できる。
さらに、現在のアルゴリズムを最大17%のIQMで改善し、最適化ギャップを31%削減する。
パフォーマンスの向上に加えて、自己参照アドオンは実世界のアプリケーションにとって重要な属性であるサンプル効率も向上する。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Representation Learning via Invariant Causal Mechanisms [19.0976564154636]
ラベルなしデータのみを用いて表現を事前学習することで、コストのかかる教師付き信号への依存を減らすための戦略として、自己教師付き学習が登場した。
プレトレーニング時に使用されるプロキシ分類器の明示的な不変性制約によって、データ拡張をより効果的に活用する方法を示す。
そこで本稿では,新たな自己教師型学習手法であるRepresentation Learning via In Causvariantal Mechanisms (Relic)を提案する。
論文 参考訳(メタデータ) (2020-10-15T17:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。