論文の概要: Multiagent Copilot Approach for Shared Autonomy between Human EEG and
TD3 Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.14458v1
- Date: Fri, 22 Dec 2023 06:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:04:47.240670
- Title: Multiagent Copilot Approach for Shared Autonomy between Human EEG and
TD3 Deep Reinforcement Learning
- Title(参考訳): ヒト脳波とTD3深部強化学習における共有自律性のためのマルチエージェントコパイロットアプローチ
- Authors: Chun-Ren Phang and Akimasa Hirata
- Abstract要約: 人体の脳波(EEG)からデコードされた作用指令と、与えられた環境に対する双発遅延DDPG(TD3)エージェントから生成された作用との間には、共有自律性が認められた。
提案手法は,EEG(EEG-NB)やTD3(TD3制御)よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 1.6627862444646657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) algorithms enable the development of fully
autonomous agents that can interact with the environment. Brain-computer
interface (BCI) systems decipher human implicit brain signals regardless of the
explicit environment. In this study, we integrated deep RL and BCI to improve
beneficial human interventions in autonomous systems and the performance in
decoding brain activities by considering environmental factors. Shared autonomy
was allowed between the action command decoded from the electroencephalography
(EEG) of the human agent and the action generated from the twin delayed DDPG
(TD3) agent for a given environment. Our proposed copilot control scheme with a
full blocker (Co-FB) significantly outperformed the individual EEG (EEG-NB) or
TD3 control. The Co-FB model achieved a higher target approaching score, lower
failure rate, and lower human workload than the EEG-NB model. The Co-FB control
scheme had a higher invisible target score and level of allowed human
intervention than the TD3 model. We also proposed a disparity d-index to
evaluate the effect of contradicting agent decisions on the control accuracy
and authority of the copilot model. We found a significant correlation between
the control authority of the TD3 agent and the performance improvement of human
EEG classification with respect to the d-index. We also observed that shifting
control authority to the TD3 agent improved performance when BCI decoding was
not optimal. These findings indicate that the copilot system can effectively
handle complex environments and that BCI performance can be improved by
considering environmental factors. Future work should employ continuous action
space and different multi-agent approaches to evaluate copilot performance.
- Abstract(参考訳): 深層強化学習(RL)アルゴリズムは、環境と対話できる完全自律エージェントの開発を可能にする。
脳コンピュータインタフェース(BCI)システムは、明示的な環境に関係なく人間の暗黙の脳信号を解読する。
本研究では,deep rlとbciを統合し,環境要因を考慮し,自律系における有益なヒューマン介入と脳活動のデコード性能を向上させる。
人体の脳波(EEG)からデコードされた作用指令と、与えられた環境に対する双発遅延DDPG(TD3)エージェントから生成された作用との間には、共有自律性が認められた。
提案手法は,EEG(EEG-NB)やTD3(TD3制御)よりも有意に優れていた。
co-fbモデルは、eeg-nbモデルよりも高い目標接近スコア、低い故障率、低いヒューマンワークロードを達成した。
Co-FB制御方式はTD3モデルよりも目に見える目標スコアと人間の介入のレベルが高い。
また,エージェント決定の矛盾が副操縦士モデルの制御精度と権限に与える影響を評価するために,差分d-インデックスを提案した。
我々は,TD3エージェントの制御権限と,d-インデックスに対するヒト脳波分類の性能改善との間に有意な相関が認められた。
また,制御権限をtd3エージェントに移行することで,bci復号が最適でない場合の性能が向上した。
これらの結果から, コンピロシステムは複雑な環境を効果的に扱えること, 環境要因を考慮したBCI性能の向上が期待できることがわかった。
今後の作業は、協調動作の性能を評価するために、連続的な行動空間と異なるマルチエージェントアプローチを採用するべきである。
関連論文リスト
- Alignment-Based Adversarial Training (ABAT) for Improving the Robustness and Accuracy of EEG-Based BCIs [20.239554619810935]
ABATは、敵の訓練の前にEEGデータアライメントを実行する。
データアライメントは、異なるドメインからのEEGトライアルを調整して、分散の相違を減らす。
敵の訓練は 分類境界をさらに強固にする
論文 参考訳(メタデータ) (2024-11-04T13:56:54Z) - Human-compatible driving partners through data-regularized self-play reinforcement learning [3.9682126792844583]
HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2024-03-28T17:56:56Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Low-Rank Modular Reinforcement Learning via Muscle Synergy [25.120547719120765]
モジュール強化学習(RL)は、アクチュエータごとに学習ポリシーを学習することで、多関節ロボットの制御を分散化する。
ロボット制御におけるDoFの冗長性を利用したSOLAR(Synergy-Oriented LeARning)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T16:01:31Z) - An adaptive admittance controller for collaborative drilling with a
robot based on subtask classification via deep learning [2.7823969627873986]
pHRIタスクには, アイドル, ドライビング, コンタクトという3つのサブタスクがある。
この分類に基づいて、人間とロボットの相互作用を制御するアクセタンスコントローラのパラメータをリアルタイムで適応的に調整する。
実験結果から、ANNモデルは、12人の被験者に対して98%の精度で、異なるアクセント制御条件下でサブタスクを検出することができることがわかった。
論文 参考訳(メタデータ) (2022-05-28T15:28:12Z) - Distributed Multi-Agent Deep Reinforcement Learning for Robust
Coordination against Noise [2.741266294612776]
マルチエージェントシステム(DA3-X)のための多機能アクターアーキテクチャモデルを提案する。
我々は,DA3-Xのエージェントが雑音環境を選択的に学習し,協調して行動できることを実証した。
我々は,DA3-Xの有効性を実験的に評価し,DA3-Xのエージェントがベースラインエージェントよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:18:51Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。