論文の概要: Bandit approach to conflict-free multi-agent Q-learning in view of
photonic implementation
- arxiv url: http://arxiv.org/abs/2212.09926v1
- Date: Tue, 20 Dec 2022 00:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 17:07:57.529509
- Title: Bandit approach to conflict-free multi-agent Q-learning in view of
photonic implementation
- Title(参考訳): フォトニック実装から見たコンフリクトフリーマルチエージェントq-learningへのbanditアプローチ
- Authors: Hiroaki Shinkawa, Nicolas Chauvet, Andr\'e R\"ohm, Takatomo Mihana,
Ryoichi Horisaki, Guillaume Bachelier, and Makoto Naruse
- Abstract要約: 従来の研究では、光子の量子干渉を使って競合する多重武装バンディットの問題を解決してきた。
本研究は,より汎用的なマルチエージェント強化学習への従来のアプローチを拡張した。
成功したフォトニック強化学習方式は、学習の質に寄与するフォトニックシステムと適切なアルゴリズムの両方を必要とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, extensive studies on photonic reinforcement learning to accelerate
the process of calculation by exploiting the physical nature of light have been
conducted. Previous studies utilized quantum interference of photons to achieve
collective decision-making without choice conflicts when solving the
competitive multi-armed bandit problem, a fundamental example of reinforcement
learning. However, the bandit problem deals with a static environment where the
agent's action does not influence the reward probabilities. This study aims to
extend the conventional approach to a more general multi-agent reinforcement
learning targeting the grid world problem. Unlike the conventional approach,
the proposed scheme deals with a dynamic environment where the reward changes
because of agents' actions. A successful photonic reinforcement learning scheme
requires both a photonic system that contributes to the quality of learning and
a suitable algorithm. This study proposes a novel learning algorithm,
discontinuous bandit Q-learning, in view of a potential photonic
implementation. Here, state-action pairs in the environment are regarded as
slot machines in the context of the bandit problem and an updated amount of
Q-value is regarded as the reward of the bandit problem. We perform numerical
simulations to validate the effectiveness of the bandit algorithm. In addition,
we propose a multi-agent architecture in which agents are indirectly connected
through quantum interference of light and quantum principles ensure the
conflict-free property of state-action pair selections among agents. We
demonstrate that multi-agent reinforcement learning can be accelerated owing to
conflict avoidance among multiple agents.
- Abstract(参考訳): 近年,光の物理的性質を利用して計算過程を高速化するフォトニック強化学習の研究が盛んに行われている。
前回の研究では、光子の量子干渉を利用して、強化学習の基本的な例である競合的マルチアームドバンディット問題を解決する際に、選択競合なしに集団的意思決定を達成する。
しかしながら、バンドイット問題は、エージェントのアクションが報酬確率に影響を与えない静的環境を扱う。
本研究は,グリッドワールド問題を対象とした,より汎用的なマルチエージェント強化学習への従来のアプローチの拡張を目的とする。
従来の手法とは異なり,提案手法はエージェントの行動によって報酬が変化する動的環境を扱う。
成功したフォトニック強化学習方式は、学習の質に寄与するフォトニックシステムと適切なアルゴリズムの両方を必要とする。
本研究では,フォトニック実装の可能性を考慮した新しい学習アルゴリズム,不連続帯域Q-ラーニングを提案する。
ここでは, 環境中の状態-作用対を, バンディット問題におけるスロットマシンとみなし, バンディット問題の報奨としてQ値が更新された。
バンディットアルゴリズムの有効性を検証するために数値シミュレーションを行う。
さらに、エージェントが光の量子干渉によって間接的に接続されるマルチエージェントアーキテクチャを提案し、エージェント間の状態-作用対選択の競合のない性質を保証する。
複数のエージェント間の衝突回避により,マルチエージェント強化学習が促進されることを示す。
関連論文リスト
- On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Scalable Task-Driven Robotic Swarm Control via Collision Avoidance and
Learning Mean-Field Control [23.494528616672024]
我々は、最先端平均場制御技術を用いて、多くのエージェントSwarm制御を分散の古典的な単一エージェント制御に変換する。
そこで我々は,衝突回避と平均場制御の学習を,知的ロボット群動作を牽引的に設計するための統一的な枠組みに統合する。
論文 参考訳(メタデータ) (2022-09-15T16:15:04Z) - Quantum bandit with amplitude amplification exploration in an
adversarial environment [9.563657204041682]
本稿では,学習適応型オフロード問題に対する量子インスパイアされた帯域幅学習手法を提案する。
量子理論における振幅増幅と崩壊によって引き起こされる新しい行動更新戦略と新しい確率的行動選択が採用されている。
提案アルゴリズムは、設計したマッピングにより、好ましくない動作に対する学習重量調整を改善するために一般化される。
論文 参考訳(メタデータ) (2022-08-15T12:40:34Z) - Parallel bandit architecture based on laser chaos for reinforcement
learning [0.0]
フォトニクスは、光子のユニークな性質を活用することを目的とした、活発な研究分野である。
本研究では,多状態強化学習のための新しいアーキテクチャを,バンドイット問題の並列配列として整理する。
PBRLとQ-ラーニングの相違点として,学習期間中にシステムが実行されたさまざまな状態が,PBRLとQ-ラーニングの相違点として現れることがわかった。
論文 参考訳(メタデータ) (2022-05-19T13:12:21Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。