論文の概要: Parallel bandit architecture based on laser chaos for reinforcement
learning
- arxiv url: http://arxiv.org/abs/2205.09543v1
- Date: Thu, 19 May 2022 13:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:52:48.318248
- Title: Parallel bandit architecture based on laser chaos for reinforcement
learning
- Title(参考訳): 強化学習のためのレーザーカオスに基づく並列帯域アーキテクチャ
- Authors: Takashi Urushibara, Nicolas Chauvet, Satoshi Kochi, Satoshi Sunada,
Kazutaka Kanno, Atsushi Uchida, Ryoichi Horisaki, Makoto Naruse
- Abstract要約: フォトニクスは、光子のユニークな性質を活用することを目的とした、活発な研究分野である。
本研究では,多状態強化学習のための新しいアーキテクチャを,バンドイット問題の並列配列として整理する。
PBRLとQ-ラーニングの相違点として,学習期間中にシステムが実行されたさまざまな状態が,PBRLとQ-ラーニングの相違点として現れることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerating artificial intelligence by photonics is an active field of study
aiming to exploit the unique properties of photons. Reinforcement learning is
an important branch of machine learning, and photonic decision-making
principles have been demonstrated with respect to the multi-armed bandit
problems. However, reinforcement learning could involve a massive number of
states, unlike previously demonstrated bandit problems where the number of
states is only one. Q-learning is a well-known approach in reinforcement
learning that can deal with many states. The architecture of Q-learning,
however, does not fit well photonic implementations due to its separation of
update rule and the action selection. In this study, we organize a new
architecture for multi-state reinforcement learning as a parallel array of
bandit problems in order to benefit from photonic decision-makers, which we
call parallel bandit architecture for reinforcement learning or PBRL in short.
Taking a cart-pole balancing problem as an instance, we demonstrate that PBRL
adapts to the environment in fewer time steps than Q-learning. Furthermore,
PBRL yields faster adaptation when operated with a chaotic laser time series
than the case with uniformly distributed pseudorandom numbers where the
autocorrelation inherent in the laser chaos provides a positive effect. We also
find that the variety of states that the system undergoes during the learning
phase exhibits completely different properties between PBRL and Q-learning. The
insights obtained through the present study are also beneficial for existing
computing platforms, not just photonic realizations, in accelerating
performances by the PBRL algorithms and correlated random sequences.
- Abstract(参考訳): フォトニクスによる人工知能の加速は、光子のユニークな性質を利用するための活発な研究分野である。
強化学習は機械学習の重要な分野であり、多武装バンディット問題に関してフォトニックな意思決定原則が実証されている。
しかし、強化学習には大量の州が含まれる可能性があるが、以前に実証されたバンディット問題とは異なり、州の数は1つに過ぎない。
q-learningは強化学習においてよく知られたアプローチであり、多くの状態を扱うことができる。
しかしながら、q-learningのアーキテクチャは、更新ルールとアクション選択の分離のため、フォトニック実装には適していない。
本研究では,多状態強化学習のための新しいアーキテクチャを,フォトニック決定器の恩恵を受けるために,並列化バンディット問題として整理し,これを並列化バンディットアーキテクチャ( parallel bandit architecture for reinforcement learning, PBRL)と呼ぶ。
カートポールバランス問題を例として、PBRLがQラーニングよりも少ない時間ステップで環境に適応できることを実証する。
さらに、PBRLは、レーザーカオスに固有の自己相関が正の効果をもたらす均一に分散された擬似ランダム数の場合よりも、カオスレーザー時系列で操作するとより高速に適応する。
また,学習段階においてシステムが行う様々な状態は,pbrlとq-learningとは全く異なる性質を示すことがわかった。
本研究により得られた知見は,PBRLアルゴリズムと相関ランダムシーケンスによる性能向上において,フォトニックな実現だけでなく,既存のコンピューティングプラットフォームにも有用である。
関連論文リスト
- Mastering the Digital Art of War: Developing Intelligent Combat Simulation Agents for Wargaming Using Hierarchical Reinforcement Learning [0.0]
対象とする観察抽象化、マルチモデル統合、ハイブリッドAIフレームワーク、階層的な強化学習フレームワークなど、包括的なアプローチを提案する。
線形空間減衰を用いた局所的な観測抽象化は,RL問題を単純化し,計算効率を向上し,従来の大域的観測法よりも優れた有効性を示す。
我々のハイブリッドAIフレームワークは、スクリプトエージェントとRLを同期させ、高レベルの決定にRLを、低レベルのタスクにスクリプトエージェントを活用し、適応性、信頼性、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-08-23T18:50:57Z) - Decentralized multi-agent reinforcement learning algorithm using a cluster-synchronized laser network [1.124958340749622]
競合するマルチアームバンディット問題に対処するフォトニクスに基づく意思決定アルゴリズムを提案する。
シミュレーションにより,光結合型レーザーのカオス振動とクラスタ同期,分散結合調整,探索と利用の効率向上が示された。
論文 参考訳(メタデータ) (2024-07-12T09:38:47Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Bandit approach to conflict-free multi-agent Q-learning in view of
photonic implementation [0.0]
従来の研究では、光子の量子干渉を使って競合する多重武装バンディットの問題を解決してきた。
本研究は,より汎用的なマルチエージェント強化学習への従来のアプローチを拡張した。
成功したフォトニック強化学習方式は、学習の質に寄与するフォトニックシステムと適切なアルゴリズムの両方を必要とする。
論文 参考訳(メタデータ) (2022-12-20T00:27:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。