論文の概要: Improving generalization in reinforcement learning through forked agents
- arxiv url: http://arxiv.org/abs/2212.06451v2
- Date: Wed, 14 Dec 2022 19:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:27:58.375000
- Title: Improving generalization in reinforcement learning through forked agents
- Title(参考訳): 鍛造エージェントによる強化学習の一般化
- Authors: Olivier Moulin, Vincent Francois-Lavet and Mark Hoogendoorn
- Abstract要約: エージェントのエコシステムは、それぞれ独自のポリシーを持っているが、限定的な一般化性は、手続き的に生成された環境における一般化を促進するための信頼性の高いアプローチであることが証明されている。
新たなエージェントは、エコシステムの範囲外の新しい環境に遭遇する際に、定期的にエコシステムに追加される。
- 参考スコア(独自算出の注目度): 4.022057598291766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An eco-system of agents each having their own policy with some, but limited,
generalizability has proven to be a reliable approach to increase
generalization across procedurally generated environments. In such an approach,
new agents are regularly added to the eco-system when encountering a new
environment that is outside of the scope of the eco-system. The speed of
adaptation and general effectiveness of the eco-system approach highly depends
on the initialization of new agents. In this paper we propose different
techniques for such initialization and study their impact.
- Abstract(参考訳): エージェントのエコシステムは、あるが限定的な一般化可能性を持つ独自のポリシーを持ち、手続き的に生成された環境全体の一般化を促進するための信頼できるアプローチであることが証明されている。
このようなアプローチでは、エコシステムの範囲外の新しい環境に遭遇する際に、定期的に新しいエージェントがエコシステムに追加される。
適応の速度とエコシステムアプローチの一般的な効果は、新しいエージェントの初期化に大きく依存する。
本稿では,このような初期化のための異なる手法を提案し,その影響について検討する。
関連論文リスト
- Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Generalizing to New Physical Systems via Context-Informed Dynamics Model [0.0]
文脈インフォームド・ダイナミックス適応(CoDA)のための新しいフレームワークを提案する。
CoDAは、各環境固有のコンテキストパラメータに動的モデルを適用することを学ぶ。
様々なアプリケーション領域を表す非線形ダイナミクスの集合に対して、最先端の一般化結果を示す。
論文 参考訳(メタデータ) (2022-02-01T07:41:10Z) - LEADS: Learning Dynamical Systems that Generalize Across Environments [12.024388048406587]
我々は、モデル一般化を改善するために、既知の環境間の共通点と相違点を活用する新しいフレームワークであるLEADSを提案する。
環境に依存したデータから抽出した知識を活用でき、既知の環境と新しい環境の両方の一般化を向上できることを示す。
論文 参考訳(メタデータ) (2021-06-08T17:28:19Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。