論文の概要: Towards Fault Tolerance in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.00534v1
- Date: Sat, 30 Nov 2024 16:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:49.747222
- Title: Towards Fault Tolerance in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるフォールトトレランスに向けて
- Authors: Yuchen Shi, Huaxin Pei, Liang Feng, Yi Zhang, Danya Yao,
- Abstract要約: エージェントフォールトはマルチエージェント強化学習(MARL)アルゴリズムの性能に重大な脅威をもたらす。
本稿では,MARLの耐故障性を向上させるために,最適化されたモデルアーキテクチャとトレーニングデータサンプリング戦略を併用する。
- 参考スコア(独自算出の注目度): 10.314885753121905
- License:
- Abstract: Agent faults pose a significant threat to the performance of multi-agent reinforcement learning (MARL) algorithms, introducing two key challenges. First, agents often struggle to extract critical information from the chaotic state space created by unexpected faults. Second, transitions recorded before and after faults in the replay buffer affect training unevenly, leading to a sample imbalance problem. To overcome these challenges, this paper enhances the fault tolerance of MARL by combining optimized model architecture with a tailored training data sampling strategy. Specifically, an attention mechanism is incorporated into the actor and critic networks to automatically detect faults and dynamically regulate the attention given to faulty agents. Additionally, a prioritization mechanism is introduced to selectively sample transitions critical to current training needs. To further support research in this area, we design and open-source a highly decoupled code platform for fault-tolerant MARL, aimed at improving the efficiency of studying related problems. Experimental results demonstrate the effectiveness of our method in handling various types of faults, faults occurring in any agent, and faults arising at random times.
- Abstract(参考訳): エージェントフォールトは、マルチエージェント強化学習(MARL)アルゴリズムの性能に重大な脅威を与え、2つの重要な課題を提起する。
第一に、エージェントはしばしば予期せぬ断層によって生成されたカオス状態空間から重要な情報を抽出するのに苦労する。
第2に、リプレイバッファにおける障害前後の遷移がトレーニングに不均一に影響を与え、サンプルの不均衡問題が発生する。
これらの課題を克服するために、最適化されたモデルアーキテクチャと調整されたトレーニングデータサンプリング戦略を組み合わせることにより、MARLの耐障害性を向上させる。
具体的には、アクタおよび批評家ネットワークに注意機構を組み込んで、障害を自動的に検出し、欠陥エージェントに与えられる注意を動的に制御する。
さらに、現在のトレーニングニーズに不可欠な遷移を選択的にサンプリングするために優先順位付け機構が導入された。
この領域のさらなる研究を支援するため、我々は障害耐性MARLのための高度に分離されたコードプラットフォームを設計・オープンソース化し、関連する問題の研究効率を向上させることを目的とした。
実験により, 種々の種類の断層, 任意のエージェントに発生する断層, ランダムに発生する断層の処理における本手法の有効性が示された。
関連論文リスト
- Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文 参考訳(メタデータ) (2024-08-31T11:59:42Z) - Enhanced Fault Detection and Cause Identification Using Integrated Attention Mechanism [0.3749861135832073]
本研究では、双方向長短期記憶(BiLSTM)ニューラルネットワークと統合注意機構(IAM)を統合することにより、テネシー・イーストマン・プロセス(TEP)内の障害検出と原因特定のための新しい手法を提案する。
IAMは、スケールドドット製品に対する注意力、残留注意力、動的注意力を組み合わせて、TEP障害検出に不可欠な複雑なパターンや依存関係をキャプチャする。
BiLSTMネットワークはこれらの特徴を双方向に処理して長距離依存関係をキャプチャし、IAMは出力をさらに改善し、故障検出結果が改善された。
論文 参考訳(メタデータ) (2024-07-31T12:01:57Z) - Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation [49.53202761595912]
継続的なテスト時間適応は、訓練済みのソースモデルを適用して、教師なしのターゲットドメインを継続的に変更する。
我々は、オンライン環境、教師なしの自然、エラー蓄積や破滅的な忘れのリスクなど、このタスクの課題を分析する。
教師なしシングルパスデータストリームから重要サンプルを高い確実性で識別・集約する不確実性を考慮したバッファリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T15:48:40Z) - Multi-agent Reinforcement Learning-based Network Intrusion Detection System [3.4636217357968904]
侵入検知システム(IDS)は,コンピュータネットワークのセキュリティ確保において重要な役割を担っている。
本稿では,自動,効率的,堅牢なネットワーク侵入検出が可能な,新しいマルチエージェント強化学習(RL)アーキテクチャを提案する。
我々のソリューションは、新しい攻撃の追加に対応し、既存の攻撃パターンの変更に効果的に適応するように設計されたレジリエントなアーキテクチャを導入します。
論文 参考訳(メタデータ) (2024-07-08T09:18:59Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。