論文の概要: Parallel bandit architecture based on laser chaos for reinforcement
learning
- arxiv url: http://arxiv.org/abs/2205.09543v1
- Date: Thu, 19 May 2022 13:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:52:48.318248
- Title: Parallel bandit architecture based on laser chaos for reinforcement
learning
- Title(参考訳): 強化学習のためのレーザーカオスに基づく並列帯域アーキテクチャ
- Authors: Takashi Urushibara, Nicolas Chauvet, Satoshi Kochi, Satoshi Sunada,
Kazutaka Kanno, Atsushi Uchida, Ryoichi Horisaki, Makoto Naruse
- Abstract要約: フォトニクスは、光子のユニークな性質を活用することを目的とした、活発な研究分野である。
本研究では,多状態強化学習のための新しいアーキテクチャを,バンドイット問題の並列配列として整理する。
PBRLとQ-ラーニングの相違点として,学習期間中にシステムが実行されたさまざまな状態が,PBRLとQ-ラーニングの相違点として現れることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerating artificial intelligence by photonics is an active field of study
aiming to exploit the unique properties of photons. Reinforcement learning is
an important branch of machine learning, and photonic decision-making
principles have been demonstrated with respect to the multi-armed bandit
problems. However, reinforcement learning could involve a massive number of
states, unlike previously demonstrated bandit problems where the number of
states is only one. Q-learning is a well-known approach in reinforcement
learning that can deal with many states. The architecture of Q-learning,
however, does not fit well photonic implementations due to its separation of
update rule and the action selection. In this study, we organize a new
architecture for multi-state reinforcement learning as a parallel array of
bandit problems in order to benefit from photonic decision-makers, which we
call parallel bandit architecture for reinforcement learning or PBRL in short.
Taking a cart-pole balancing problem as an instance, we demonstrate that PBRL
adapts to the environment in fewer time steps than Q-learning. Furthermore,
PBRL yields faster adaptation when operated with a chaotic laser time series
than the case with uniformly distributed pseudorandom numbers where the
autocorrelation inherent in the laser chaos provides a positive effect. We also
find that the variety of states that the system undergoes during the learning
phase exhibits completely different properties between PBRL and Q-learning. The
insights obtained through the present study are also beneficial for existing
computing platforms, not just photonic realizations, in accelerating
performances by the PBRL algorithms and correlated random sequences.
- Abstract(参考訳): フォトニクスによる人工知能の加速は、光子のユニークな性質を利用するための活発な研究分野である。
強化学習は機械学習の重要な分野であり、多武装バンディット問題に関してフォトニックな意思決定原則が実証されている。
しかし、強化学習には大量の州が含まれる可能性があるが、以前に実証されたバンディット問題とは異なり、州の数は1つに過ぎない。
q-learningは強化学習においてよく知られたアプローチであり、多くの状態を扱うことができる。
しかしながら、q-learningのアーキテクチャは、更新ルールとアクション選択の分離のため、フォトニック実装には適していない。
本研究では,多状態強化学習のための新しいアーキテクチャを,フォトニック決定器の恩恵を受けるために,並列化バンディット問題として整理し,これを並列化バンディットアーキテクチャ( parallel bandit architecture for reinforcement learning, PBRL)と呼ぶ。
カートポールバランス問題を例として、PBRLがQラーニングよりも少ない時間ステップで環境に適応できることを実証する。
さらに、PBRLは、レーザーカオスに固有の自己相関が正の効果をもたらす均一に分散された擬似ランダム数の場合よりも、カオスレーザー時系列で操作するとより高速に適応する。
また,学習段階においてシステムが行う様々な状態は,pbrlとq-learningとは全く異なる性質を示すことがわかった。
本研究により得られた知見は,PBRLアルゴリズムと相関ランダムシーケンスによる性能向上において,フォトニックな実現だけでなく,既存のコンピューティングプラットフォームにも有用である。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Bandit approach to conflict-free multi-agent Q-learning in view of
photonic implementation [0.0]
従来の研究では、光子の量子干渉を使って競合する多重武装バンディットの問題を解決してきた。
本研究は,より汎用的なマルチエージェント強化学習への従来のアプローチを拡張した。
成功したフォトニック強化学習方式は、学習の質に寄与するフォトニックシステムと適切なアルゴリズムの両方を必要とする。
論文 参考訳(メタデータ) (2022-12-20T00:27:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning
in Online Reinforcement Learning [113.90282991169201]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z) - Intelligent and Reconfigurable Architecture for KL Divergence Based
Online Machine Learning Algorithm [0.0]
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
論文 参考訳(メタデータ) (2020-02-18T16:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。