論文の概要: PreND: Enhancing Intrinsic Motivation in Reinforcement Learning through Pre-trained Network Distillation
- arxiv url: http://arxiv.org/abs/2410.01745v1
- Date: Wed, 2 Oct 2024 16:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:34:04.443744
- Title: PreND: Enhancing Intrinsic Motivation in Reinforcement Learning through Pre-trained Network Distillation
- Title(参考訳): PreND:ネットワーク蒸留による強化学習における本質的な動機づけの促進
- Authors: Mohammadamin Davoodabadi, Negin Hashemi Dijujin, Mahdieh Soleymani Baghshah,
- Abstract要約: 強化学習における本質的モチベーションを高めるための新しいアプローチであるプレトレーニングネットワーク蒸留(Pre-trained Network Distillation, PreND)を導入する。
PreNDは、事前訓練された表現モデルをターゲットネットワークと予測ネットワークの両方に組み込み、より有意義で安定した本質的な報酬をもたらす。
我々は,Atariドメインの実験において,PreNDがランダムネットワーク蒸留(RND)を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 2.6647096862213884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic motivation, inspired by the psychology of developmental learning in infants, stimulates exploration in agents without relying solely on sparse external rewards. Existing methods in reinforcement learning like Random Network Distillation (RND) face significant limitations, including (1) relying on raw visual inputs, leading to a lack of meaningful representations, (2) the inability to build a robust latent space, (3) poor target network initialization and (4) rapid degradation of intrinsic rewards. In this paper, we introduce Pre-trained Network Distillation (PreND), a novel approach to enhance intrinsic motivation in reinforcement learning (RL) by improving upon the widely used prediction-based method, RND. PreND addresses these challenges by incorporating pre-trained representation models into both the target and predictor networks, resulting in more meaningful and stable intrinsic rewards, while enhancing the representation learned by the model. We also tried simple but effective variants of the predictor network optimization by controlling the learning rate. Through experiments on the Atari domain, we demonstrate that PreND significantly outperforms RND, offering a more robust intrinsic motivation signal that leads to better exploration, improving overall performance and sample efficiency. This research highlights the importance of target and predictor networks representation in prediction-based intrinsic motivation, setting a new direction for improving RL agents' learning efficiency in sparse reward environments.
- Abstract(参考訳): 幼児の発達学習心理学に触発された本質的な動機は、わずかな外部報酬のみに頼ることなく、エージェントの探索を刺激する。
既存のRandom Network Distillation (RND) のような強化学習の手法では,(1) 生の視覚的入力に依存し,意味のある表現の欠如,(2) 頑健な潜在空間を構築する能力の欠如,(3) ターゲットネットワークの初期化の欠如,(4) 固有の報酬の急速な減少など,重要な制限に直面している。
本稿では,Regress Learning(RL)における本質的なモチベーションを高めるための新しいアプローチであるPre-trained Network Distillation(PreND)を提案する。
PreNDは、事前学習された表現モデルをターゲットネットワークと予測ネットワークの両方に組み込むことでこれらの課題に対処し、より有意義で安定した本質的な報酬をもたらしながら、モデルによって学習された表現を強化する。
また,学習率の制御により,予測器ネットワーク最適化の簡易かつ効果的な変種についても検討した。
Atariドメインの実験を通じて、PreNDがRNDを著しく上回り、より堅牢な本質的なモチベーション信号を提供することで、探索性の向上、全体的な性能の向上、サンプル効率の向上を実現している。
本研究は、予測に基づく本質的な動機づけにおけるターゲットネットワークと予測ネットワークの表現の重要性を強調し、スパース報酬環境におけるRLエージェントの学習効率を向上させるための新たな方向性を定めている。
関連論文リスト
- Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - T2FNorm: Extremely Simple Scaled Train-time Feature Normalization for
OOD Detection [16.03174062601543]
我々は,OOD符号化の目的のために非変換空間を用いながら,訓練中に特徴を超球面空間に変換する新しいアプローチであるT2FNormを紹介した。
In-distribution(ID)におけるモデル精度を損なうことなくOOD検出能力を驚くほど向上させる方法である。
論文 参考訳(メタデータ) (2023-05-28T18:56:54Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - ReAct: Out-of-distribution Detection With Rectified Activations [20.792140933660075]
オフ・オブ・ディストリビューション (OOD) 検出は, 実用的重要性から近年注目されている。
主な課題の1つは、モデルがしばしばOODデータに対して高い信頼性の予測を生成することである。
我々は,OODデータに対するモデル過信を低減するためのシンプルで効果的な手法であるReActを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:02:07Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。