論文の概要: Do Agents Dream of Electric Sheep?: Improving Generalization in
Reinforcement Learning through Generative Learning
- arxiv url: http://arxiv.org/abs/2403.07979v1
- Date: Tue, 12 Mar 2024 18:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:07.105783
- Title: Do Agents Dream of Electric Sheep?: Improving Generalization in
Reinforcement Learning through Generative Learning
- Title(参考訳): エージェントは電気シープを夢見るか? : 一般化をめざして
生成学習による強化学習
- Authors: Giorgio Franceschelli and Mirco Musolesi
- Abstract要約: 我々は想像力に基づく強化学習を用いて、夢のようなエピソードのポリシーを訓練する。
4つのProcGen環境における実験により,古典的想像力や学習経験のオフライントレーニングに比べ,本手法はより高度な一般化を実現することができた。
- 参考スコア(独自算出の注目度): 2.9008806248012333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Overfitted Brain hypothesis suggests dreams happen to allow
generalization in the human brain. Here, we ask if the same is true for
reinforcement learning agents as well. Given limited experience in a real
environment, we use imagination-based reinforcement learning to train a policy
on dream-like episodes, where non-imaginative, predicted trajectories are
modified through generative augmentations. Experiments on four ProcGen
environments show that, compared to classic imagination and offline training on
collected experience, our method can reach a higher level of generalization
when dealing with sparsely rewarded environments.
- Abstract(参考訳): Overfitted Brain仮説は、夢は人間の脳の一般化を可能にすることを示唆している。
ここでは、強化学習エージェントにも同様のことが当てはまるか尋ねる。
現実の環境での限られた経験から、想像力に基づく強化学習を用いて夢のようなエピソードのポリシーを訓練する。
4つのProcGen環境における実験により,従来の想像力や学習経験のオフライントレーニングに比べ,少ない報奨環境を扱う場合,より高度な一般化を実現することができた。
関連論文リスト
- Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Learning beyond sensations: how dreams organize neuronal representations [1.749248408967819]
仮想体験の生成を通じて表現を整理する2つの相補的な学習原理について論じる。
これらの原理は、既知の皮質構造や力学、睡眠の現象学と互換性がある。
論文 参考訳(メタデータ) (2023-08-03T15:45:12Z) - Generative Adversarial Neuroevolution for Control Behaviour Imitation [3.04585143845864]
本稿では,一般的なシミュレーション環境における行動模倣にディープ・ニューロエボリューションが有効かどうかを考察する。
我々は、単純な共進化的逆数生成フレームワークを導入し、標準の深い再帰ネットワークを進化させることにより、その能力を評価する。
全てのタスクにおいて、事前訓練されたエージェントが獲得したものよりも高いスコアを達成できる最後のエリートアクターが見つかる。
論文 参考訳(メタデータ) (2023-04-03T16:33:22Z) - Can an AI agent hit a moving target? [0.0]
このエクササイズは、コンピュータ科学、心理学、神経科学研究に結びつく、もっともらしい予測形成モデルを提供する。
いくつかのシミュレーション実験を通して、エージェントはインフレ目標の増大に直面した主観的信念を調整することを示した。
論文 参考訳(メタデータ) (2021-10-06T03:16:54Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文 参考訳(メタデータ) (2020-07-01T12:31:52Z) - Show me the Way: Intrinsic Motivation from Demonstrations [44.87651595571687]
複雑な探索行動は, 異なる動機を反映して, RLエージェントによって学習し, 効率的に利用でき, 徹底的な探索が禁じられる課題を解決することができることを示す。
本稿では,これらのモチベーションを人工エージェントに伝達する実証実験から探索ボーナスを学習することを提案する。
論文 参考訳(メタデータ) (2020-06-23T11:52:53Z) - Learning as Reinforcement: Applying Principles of Neuroscience for More
General Reinforcement Learning Agents [1.0742675209112622]
我々は、生物学的アルゴリズムの計算効率の良い抽象化を組み合わせることによって、実験神経科学の原理に基づいて構築されたアーキテクチャを実装する。
我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割に着想を得たものである。
Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。
論文 参考訳(メタデータ) (2020-04-20T04:06:21Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。