Fugu-MT 論文翻訳(概要): Continual Deep Reinforcement Learning to Prevent Catastrophic Forgetting in Jamming Mitigation

論文の概要: Continual Deep Reinforcement Learning to Prevent Catastrophic Forgetting in Jamming Mitigation

arxiv url: http://arxiv.org/abs/2410.10521v1
Date: Mon, 14 Oct 2024 14:00:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 21:05:04.671711
Title: Continual Deep Reinforcement Learning to Prevent Catastrophic Forgetting in Jamming Mitigation
Title（参考訳）: ジャミング・ミティゲーションにおける破砕防止のための連続的深層強化学習
Authors: Kemal Davaslioglu, Sastry Kompella, Tugba Erpek, Yalin E. Sagduyu,
Abstract要約: 本稿では, 妨害防止システムについて考察し, 妨害検知および緩和作業に応用したDRLにおける破滅的忘れ込みの課題について考察する。本稿では,ネットワークが古いジャマパターンの知識を維持しつつ,新しいジャマパターンの処理を学習することを可能にする手法を提案する。
参考スコア（独自算出の注目度）: 11.387078315810061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Reinforcement Learning (DRL) has been highly effective in learning from and adapting to RF environments and thus detecting and mitigating jamming effects to facilitate reliable wireless communications. However, traditional DRL methods are susceptible to catastrophic forgetting (namely forgetting old tasks when learning new ones), especially in dynamic wireless environments where jammer patterns change over time. This paper considers an anti-jamming system and addresses the challenge of catastrophic forgetting in DRL applied to jammer detection and mitigation. First, we demonstrate the impact of catastrophic forgetting in DRL when applied to jammer detection and mitigation tasks, where the network forgets previously learned jammer patterns while adapting to new ones. This catastrophic interference undermines the effectiveness of the system, particularly in scenarios where the environment is non-stationary. We present a method that enables the network to retain knowledge of old jammer patterns while learning to handle new ones. Our approach substantially reduces catastrophic forgetting, allowing the anti-jamming system to learn new tasks without compromising its ability to perform previously learned tasks effectively. Furthermore, we introduce a systematic methodology for sequentially learning tasks in the anti-jamming framework. By leveraging continual DRL techniques based on PackNet, we achieve superior anti-jamming performance compared to standard DRL methods. Our proposed approach not only addresses catastrophic forgetting but also enhances the adaptability and robustness of the system in dynamic jamming environments. We demonstrate the efficacy of our method in preserving knowledge of past jammer patterns, learning new tasks efficiently, and achieving superior anti-jamming performance compared to traditional DRL approaches.
Abstract（参考訳）: 深層強化学習(DRL)は、RF環境から学習し、適応することで、信頼性の高い無線通信を容易にするジャミング効果の検出と緩和に非常に効果的である。しかし、従来のDRL法は、特にジャマーパターンが時間とともに変化する動的な無線環境において、破滅的な忘れ(すなわち、新しいものを学ぶときに古いタスクを忘れる)の影響を受ける。本稿では,抗ジャミングシステムについて考察し,ジャマー検出と緩和に応用したDRLの破滅的忘れ込みの課題に対処する。まず,従来のジャムマーパターンをネットワークが忘れ,新たなジャムマーパターンに適応させることで,DRLの破滅的忘れがジャムマー検出および緩和タスクに与える影響を実証する。この破滅的な干渉は、特に環境が静止していないシナリオにおいて、システムの有効性を損なう。本稿では,ネットワークが古いジャマパターンの知識を維持しつつ,新しいジャマパターンの処理を学習することを可能にする手法を提案する。提案手法は破滅的な忘れを著しく減らし,従来学習していた課題を効果的に遂行する能力を損なうことなく,新たな課題を学習することを可能にする。さらに,アンチ・ジャミング・フレームワークにおけるタスクを逐次学習するための体系的手法を提案する。 PackNetに基づく連続DRL技術を利用することで、標準DRL法と比較して優れたアンチジャミング性能を実現する。提案手法は破滅的な記憶だけでなく,動的ジャミング環境におけるシステムの適応性と堅牢性の向上にも寄与する。従来のDRL手法と比較して,過去のジャマーパターンの知識を保存し,新しいタスクを効率的に学習し,優れたアンチジャミング性能を実現する上で,本手法の有効性を実証する。

関連論文リスト

Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文参考訳（メタデータ） (2025-12-01T15:56:00Z)
Adaptive Intrusion Detection for Evolving RPL IoT Attacks Using Incremental Learning [0.13999481573773068]
RPLネットワークにおける侵入検知のための実践的かつ適応的な手法としてインクリメンタルラーニングを検討する。我々の分析では、漸進的な学習が新たな攻撃クラスの検出性能を回復し、以前に学習した脅威の破滅的な忘れを緩和することを強調している。
論文参考訳（メタデータ） (2025-11-14T16:35:48Z)
Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文参考訳（メタデータ） (2025-06-23T18:17:39Z)
Learning without Isolation: Pathway Protection for Continual Learning [64.3476595369537]
ディープネットワークは、シーケンシャルなタスク学習中に破滅的な忘れをしがちだ。モデル融合をグラフマッチングとして定式化する新しいCLフレームワークLwIを提案する。深層ネットワークにおける活性化チャネルの広がりにより、LwIは新しいタスクのために利用可能な経路を適応的に割り当て、経路保護を実現し、破滅的な忘れに対処することができる。
論文参考訳（メタデータ） (2025-05-24T07:16:55Z)
Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。 RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文参考訳（メタデータ） (2025-04-03T04:46:17Z)
Continual Reinforcement Learning for HVAC Systems Control: Integrating Hypernetworks and Transfer Learning [0.0]
ビッグデータによってDeep Reinforcement Learning (DRL)のようなデータ駆動型メソッドが実現されたモデルに基づく強化学習フレームワークを導入し、Hypernetworkを使用して、異なるアクション空間を持つタスク間の環境ダイナミクスを継続的に学習する。本手法は,第2タスクのトレーニング後の連続学習環境において,第1タスクの微調整が最小限に抑えられ,わずか5エピソード以内の迅速な収束が可能となることを示す。
論文参考訳（メタデータ） (2025-03-24T23:38:04Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn [14.30387204093346]
ディープニューラルネットワークは、大規模な意思決定問題に対処するために強化学習(RL)強力な関数近似器を提供する。 RLの課題の1つは、出力予測が小さくなり、バッチに含まれない状態に対する各バッチ更新後の制御不能な変更につながることである。本稿では,既存のDRLアルゴリズムに容易に接続可能なChurn Approximated ReductIoN (CHAIN) と呼ばれる,異なる設定でチェーン効果を低減させる手法を提案する。
論文参考訳（メタデータ） (2024-09-07T11:08:20Z)
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文参考訳（メタデータ） (2024-08-30T16:16:57Z)
Multi-agent Reinforcement Learning-based Network Intrusion Detection System [3.4636217357968904]
侵入検知システム(IDS)は,コンピュータネットワークのセキュリティ確保において重要な役割を担っている。本稿では,自動,効率的,堅牢なネットワーク侵入検出が可能な,新しいマルチエージェント強化学習(RL)アーキテクチャを提案する。我々のソリューションは、新しい攻撃の追加に対応し、既存の攻撃パターンの変更に効果的に適応するように設計されたレジリエントなアーキテクチャを導入します。
論文参考訳（メタデータ） (2024-07-08T09:18:59Z)
Overcoming Domain Drift in Online Continual Learning [24.86094018430407]
オンライン連続学習(OCL)は、機械学習モデルに一連のタスクで新しい知識をオンラインで取得する権限を与える。 OCLは、破滅的な忘れをし、以前のタスクで学んだモデルは、新しいタスクに遭遇したときに実質的に上書きされる、という大きな課題に直面します。本稿では,古いタスクのドメインを固定し,負の転送効果を低減するための新しいリハーサル戦略であるDrift-Reducing Rehearsal(DRR)を提案する。
論文参考訳（メタデータ） (2024-05-15T06:57:18Z)
Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文参考訳（メタデータ） (2024-01-16T16:28:32Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文参考訳（メタデータ） (2023-04-20T17:11:05Z)
Recursive Least-Squares Estimator-Aided Online Learning for Visual Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文参考訳（メタデータ） (2021-12-28T06:51:18Z)
Physics-informed Evolutionary Strategy based Control for Mitigating Delayed Voltage Recovery [14.44961822756759]
物理インフォームド・ガイド付きメタ進化戦略(ES)に基づく新しいデータ駆動リアルタイム電力系統電圧制御法を提案する。主な目的は、故障による遅延電圧回復(FIDVR)問題を緩和するための適応制御戦略を迅速に提供することである。
論文参考訳（メタデータ） (2021-11-29T07:12:40Z)
Improving Robustness of Reinforcement Learning for Power System Control with Adversarial Training [71.7750435554693]
電力系統制御のために提案された最先端のRLエージェントが敵攻撃に対して脆弱であることを示す。具体的には、敵のマルコフ決定プロセスを用いて攻撃方針を学習し、攻撃の有効性を実証する。本稿では,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。
論文参考訳（メタデータ） (2021-10-18T00:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。