論文の概要: Efficient Off-Policy Reinforcement Learning via Brain-Inspired Computing
- arxiv url: http://arxiv.org/abs/2205.06978v3
- Date: Wed, 21 Jun 2023 09:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 18:23:32.895016
- Title: Efficient Off-Policy Reinforcement Learning via Brain-Inspired Computing
- Title(参考訳): 脳インスパイアコンピューティングによる効率的なオフポリシー強化学習
- Authors: Yang Ni, Danny Abraham, Mariam Issa, Yeseong Kim, Pietro Mercati,
Mohsen Imani
- Abstract要約: そこで本稿では,脳特性を模倣した非政治的価値に基づく超次元強化学習であるQHDを提案する。
QHDは、未知の環境で最適なポリシーを学ぶために、軽量な脳誘発モデルに依存している。
評価の結果,リアルタイム学習におけるQHD能力は,DQNよりも34.6倍,学習品質が大幅に向上した。
- 参考スコア(独自算出の注目度): 9.078553427792183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has opened up new opportunities to enhance
existing smart systems that generally include a complex decision-making
process. However, modern RL algorithms, e.g., Deep Q-Networks (DQN), are based
on deep neural networks, resulting in high computational costs. In this paper,
we propose QHD, an off-policy value-based Hyperdimensional Reinforcement
Learning, that mimics brain properties toward robust and real-time learning.
QHD relies on a lightweight brain-inspired model to learn an optimal policy in
an unknown environment. On both desktop and power-limited embedded platforms,
QHD achieves significantly better overall efficiency than DQN while providing
higher or comparable rewards. QHD is also suitable for highly-efficient
reinforcement learning with great potential for online and real-time learning.
Our solution supports a small experience replay batch size that provides 12.3
times speedup compared to DQN while ensuring minimal quality loss. Our
evaluation shows QHD capability for real-time learning, providing 34.6 times
speedup and significantly better quality of learning than DQN.
- Abstract(参考訳): 強化学習(RL)は、一般的に複雑な意思決定プロセスを含む既存のスマートシステムを強化する新たな機会を開いた。
しかし、現代のRLアルゴリズム、例えばDeep Q-Networks (DQN)はディープニューラルネットワークに基づいており、計算コストが高い。
本稿では,ロバストかつリアルタイム学習のための脳特性を模倣した,オフポリシー値に基づく超次元強化学習であるqhdを提案する。
QHDは、未知の環境で最適なポリシーを学ぶために、軽量な脳誘発モデルに依存している。
デスクトップとパワー限定の組み込みプラットフォームでは、QHDはDQNよりもはるかに優れた全体的な効率を実現し、より高い報酬や同等の報酬を提供する。
QHDは高効率の強化学習にも適しており、オンラインおよびリアルタイム学習に大きな可能性がある。
我々のソリューションは、DQNと比較して12.3倍のスピードアップを提供する小さなリプレイバッチサイズをサポートし、最小品質の損失を保証します。
評価の結果,リアルタイム学習におけるQHD能力は,DQNよりも34.6倍,学習品質が大幅に向上した。
関連論文リスト
- Lifting the Veil: Unlocking the Power of Depth in Q-learning [31.700583180829106]
深層Q-ラーニングは、オペレーションリサーチとマネジメントサイエンスで広く使われている。
本稿では,深部Q-ラーニングにおける深部Q-ラーニングのパワーを理論的に検証する。
論文 参考訳(メタデータ) (2023-10-27T06:15:33Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Human-Level Control through Directly-Trained Deep Spiking Q-Networks [16.268397551693862]
スパイキングニューラルネットワーク(SNN)は、その高エネルギー効率のため、ニューロモルフィックなハードウェアに大きな可能性を秘めている。
本稿では,Leakyインテグレート・アンド・ファイアニューロンとDeep Q-Networkに基づいて,直接学習した深部スパイキング強化学習アーキテクチャを提案する。
我々の研究は、直接学習されたSNNを用いて、複数のAtariゲームで最先端のパフォーマンスを達成する最初のものである。
論文 参考訳(メタデータ) (2021-12-13T09:46:17Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning [114.35801511501639]
視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。
特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
論文 参考訳(メタデータ) (2021-07-20T17:29:13Z) - Accelerating Real-Time Question Answering via Question Generation [98.43852668033595]
Ocean-Qは新しい質問生成(QG)モデルを導入し、大量のQAペアをオフラインで生成する。
入力された質問を候補QAプールとリアルタイムにマッチングし、質問エンコーディングなしで回答を予測する。
Ocean-Qは、既存の分散データベースシステムや検索エンジンに簡単にデプロイでき、大規模クエリを使用することができる。
論文 参考訳(メタデータ) (2020-09-10T22:44:29Z) - Deep Q-Network Based Multi-agent Reinforcement Learning with Binary
Action Agents [1.8782750537161614]
強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。
共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。
このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
論文 参考訳(メタデータ) (2020-08-06T15:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。