論文の概要: QHD: A brain-inspired hyperdimensional reinforcement learning algorithm
- arxiv url: http://arxiv.org/abs/2205.06978v1
- Date: Sat, 14 May 2022 05:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:07:18.683438
- Title: QHD: A brain-inspired hyperdimensional reinforcement learning algorithm
- Title(参考訳): QHD:脳にインスパイアされた超次元強化学習アルゴリズム
- Authors: Yang Ni, Danny Abraham, Mariam Issa, Yeseong Kim, Pietro Mecati,
Mohsen Imani
- Abstract要約: 本稿では,高次元強化学習であるQHDを提案する。
QHDは、未知の環境で最適なポリシーを学ぶために、軽量な脳誘発モデルに依存している。
我々のソリューションは、最先端の深層RLアルゴリズムよりも34.6倍のスピードアップと学習の質が大幅に向上する。
- 参考スコア(独自算出の注目度): 9.036610469012823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has opened up new opportunities to solve a wide
range of complex decision-making tasks. However, modern RL algorithms, e.g.,
Deep Q-Learning, are based on deep neural networks, putting high computational
costs when running on edge devices. In this paper, we propose QHD, a
Hyperdimensional Reinforcement Learning, that mimics brain properties toward
robust and real-time learning. QHD relies on a lightweight brain-inspired model
to learn an optimal policy in an unknown environment. We first develop a novel
mathematical foundation and encoding module that maps state-action space into
high-dimensional space. We accordingly develop a hyperdimensional regression
model to approximate the Q-value function. The QHD-powered agent makes
decisions by comparing Q-values of each possible action. We evaluate the effect
of the different RL training batch sizes and local memory capacity on the QHD
quality of learning. Our QHD is also capable of online learning with tiny local
memory capacity, which can be as small as the training batch size. QHD provides
real-time learning by further decreasing the memory capacity and the batch
size. This makes QHD suitable for highly-efficient reinforcement learning in
the edge environment, where it is crucial to support online and real-time
learning. Our solution also supports a small experience replay batch size that
provides 12.3 times speedup compared to DQN while ensuring minimal quality
loss. Our evaluation shows QHD capability for real-time learning, providing
34.6 times speedup and significantly better quality of learning than
state-of-the-art deep RL algorithms.
- Abstract(参考訳): 強化学習(RL)は、幅広い複雑な意思決定タスクを解決する新しい機会を開いた。
しかし、最新のRLアルゴリズム、例えばDeep Q-Learningはディープニューラルネットワークに基づいており、エッジデバイス上で実行する場合の計算コストが高い。
本稿では,ロバストかつリアルタイム学習のための脳特性を模倣した超次元強化学習であるqhdを提案する。
QHDは、未知の環境で最適なポリシーを学ぶために、軽量な脳誘発モデルに依存している。
まず, 状態作用空間を高次元空間にマッピングする新しい数学的基礎と符号化モジュールを開発した。
そこで我々は,Q値関数を近似する超次元回帰モデルを開発した。
QHDを動力とするエージェントは、各アクションのQ値を比較して決定する。
異なるrlトレーニングバッチサイズとローカルメモリ容量が学習のqhd品質に及ぼす影響を評価した。
私たちのqhdは、小さなローカルメモリ容量でオンライン学習も可能です。
QHDは、メモリ容量とバッチサイズをさらに削減することで、リアルタイム学習を提供する。
これにより、qhdは、オンラインおよびリアルタイム学習をサポートすることが重要となるエッジ環境での高効率強化学習に適している。
我々のソリューションは、DQNと比較して12.3倍のスピードアップを提供するとともに、最小品質の損失を最小限に抑える小さなリプレイバッチサイズもサポートしています。
本評価は,リアルタイム学習におけるqhd能力を示し,最先端のディープrlアルゴリズムよりも,34.6倍の高速化と極めて優れた学習品質を提供する。
関連論文リスト
- Lifting the Veil: Unlocking the Power of Depth in Q-learning [31.700583180829106]
深層Q-ラーニングは、オペレーションリサーチとマネジメントサイエンスで広く使われている。
本稿では,深部Q-ラーニングにおける深部Q-ラーニングのパワーを理論的に検証する。
論文 参考訳(メタデータ) (2023-10-27T06:15:33Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Human-Level Control through Directly-Trained Deep Spiking Q-Networks [16.268397551693862]
スパイキングニューラルネットワーク(SNN)は、その高エネルギー効率のため、ニューロモルフィックなハードウェアに大きな可能性を秘めている。
本稿では,Leakyインテグレート・アンド・ファイアニューロンとDeep Q-Networkに基づいて,直接学習した深部スパイキング強化学習アーキテクチャを提案する。
我々の研究は、直接学習されたSNNを用いて、複数のAtariゲームで最先端のパフォーマンスを達成する最初のものである。
論文 参考訳(メタデータ) (2021-12-13T09:46:17Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning [114.35801511501639]
視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。
特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
論文 参考訳(メタデータ) (2021-07-20T17:29:13Z) - Accelerating Real-Time Question Answering via Question Generation [98.43852668033595]
Ocean-Qは新しい質問生成(QG)モデルを導入し、大量のQAペアをオフラインで生成する。
入力された質問を候補QAプールとリアルタイムにマッチングし、質問エンコーディングなしで回答を予測する。
Ocean-Qは、既存の分散データベースシステムや検索エンジンに簡単にデプロイでき、大規模クエリを使用することができる。
論文 参考訳(メタデータ) (2020-09-10T22:44:29Z) - Deep Q-Network Based Multi-agent Reinforcement Learning with Binary
Action Agents [1.8782750537161614]
強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。
共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。
このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
論文 参考訳(メタデータ) (2020-08-06T15:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。