論文の概要: Chaos-based reinforcement learning with TD3
- arxiv url: http://arxiv.org/abs/2405.09086v1
- Date: Wed, 15 May 2024 04:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:26:01.398179
- Title: Chaos-based reinforcement learning with TD3
- Title(参考訳): TD3を用いたカオスに基づく強化学習
- Authors: Toshitaka Matsuki, Yusuke Sakemi, Kazuyuki Aihara,
- Abstract要約: カオスに基づく強化学習(CBRL)は、エージェントの内部カオス力学が探索を促進する方法である。
この研究は、最先端の深層強化学習アルゴリズムの一つであるTD3(Twin Delayed Deep Deterministic Policy Gradients)を導入した。
- 参考スコア(独自算出の注目度): 3.04503073434724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chaos-based reinforcement learning (CBRL) is a method in which the agent's internal chaotic dynamics drives exploration. This approach offers a model for considering how the biological brain can create variability in its behavior and learn in an exploratory manner. At the same time, it is a learning model that has the ability to automatically switch between exploration and exploitation modes and the potential to realize higher explorations that reflect what it has learned so far. However, the learning algorithms in CBRL have not been well-established in previous studies and have yet to incorporate recent advances in reinforcement learning. This study introduced Twin Delayed Deep Deterministic Policy Gradients (TD3), which is one of the state-of-the-art deep reinforcement learning algorithms that can treat deterministic and continuous action spaces, to CBRL. The validation results provide several insights. First, TD3 works as a learning algorithm for CBRL in a simple goal-reaching task. Second, CBRL agents with TD3 can autonomously suppress their exploratory behavior as learning progresses and resume exploration when the environment changes. Finally, examining the effect of the agent's chaoticity on learning shows that extremely strong chaos negatively impacts the flexible switching between exploration and exploitation.
- Abstract(参考訳): カオスに基づく強化学習(CBRL)は、エージェントの内部カオス力学が探索を促進する方法である。
このアプローチは、生物学的脳が行動の多様性をいかに生み出し、探索的な方法で学習するかを考えるためのモデルを提供する。
同時に、探索と搾取モードを自動的に切り替える能力と、これまでに学んだことを反映したより高い探索を実現する能力を持つ学習モデルである。
しかし、CBRLの学習アルゴリズムはこれまでの研究では十分に確立されておらず、近年の強化学習の進歩を組み込んでいない。
本研究は、決定論的かつ連続的な行動空間を扱える最先端の深層強化学習アルゴリズムであるTD3(Twin Delayed Deep Deterministic Policy Gradients)をCBRLに導入した。
検証結果はいくつかの洞察を与える。
まず、TD3は単純な目標達成タスクでCBRLの学習アルゴリズムとして機能する。
第2に、TD3を用いたCBRLエージェントは、学習が進むにつれて探索行動が自律的に抑制され、環境の変化とともに探索が再開される。
最後に、エージェントのカオス性が学習に与える影響を調べると、非常に強いカオスが探索と搾取の間の柔軟な切り替えに悪影響を及ぼすことが示された。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Quick and Accurate Affordance Learning [2.2499166814992444]
幼児は自分の環境で積極的に学習し、独自の学習カリキュラムを形成する。
ここでは、ディープラーニングアーキテクチャを用いて、このような振る舞いをモデル化する。
推論プロセスは、シミュレートされたエージェントを、余裕に関連した知識の獲得を期待する領域へ積極的に移動させる。
論文 参考訳(メタデータ) (2024-05-13T14:58:57Z) - Demonstration-free Autonomous Reinforcement Learning via Implicit and
Bidirectional Curriculum [22.32327908453603]
Indicit and Bi-directional Curriculum (IBC) を用いた実証自由強化学習アルゴリズムを提案する。
学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向ゴールカリキュラムにより、本手法は従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-17T04:31:36Z) - Bridging Declarative, Procedural, and Conditional Metacognitive
Knowledge Gap Using Deep Reinforcement Learning [7.253181280137071]
帰納的ドメインでは、昇順のメタ認知的知識タイプは宣言的、手続き的、条件的学習である。
この研究は、3つの知識タイプ間のギャップを埋めるために適応的なメタ認知的介入を提供するために、Deep Reinforcement Learning (DRL)を活用する。
以上の結果から,DRLは両ITSにおいて,学生間のメタ認知的知識ギャップを橋渡しし,学習能力を大幅に向上させた。
論文 参考訳(メタデータ) (2023-04-23T20:07:07Z) - What deep reinforcement learning tells us about human motor learning and
vice-versa [24.442174952832108]
本稿では,近年の深部RL法が神経科学,エラーベース学習において支配的な運動学習の枠組みとどのように一致するかを示す。
我々は、モデルに基づく決定論的ポリシー勾配(MB-DPG)という新しいディープRLアルゴリズムを導入する。
MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。
論文 参考訳(メタデータ) (2022-08-23T11:56:49Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - PBCS : Efficient Exploration and Exploitation Using a Synergy between
Reinforcement Learning and Motion Planning [8.176152440971897]
「プラン、バックプレイ、チェインスキル」は、運動計画と強化学習を組み合わせてハード探索環境を解決している。
本手法は, 様々な大きさの2次元迷路環境において, 最先端のRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-24T11:37:09Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。