論文の概要: RLShield: Practical Multi-Agent RL for Financial Cyber Defense with Attack-Surface MDPs and Real-Time Response Orchestration
- arxiv url: http://arxiv.org/abs/2603.00186v1
- Date: Thu, 26 Feb 2026 23:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.092171
- Title: RLShield: Practical Multi-Agent RL for Financial Cyber Defense with Attack-Surface MDPs and Real-Time Response Orchestration
- Title(参考訳): RLShield: 攻撃面MDPとリアルタイム応答オーケストレーションによる金融サイバー防衛のための実践的マルチエージェントRL
- Authors: Srikumar Nayak,
- Abstract要約: 本稿では,金融サイバー防衛のための実用的マルチエージェントRLパイプラインであるRLShieldを提案する。
我々は、エンタープライズアタックサーフェスを、警告、アセットエクスポージャー、サービスヘルスを要約したマルコフ決定プロセス(MDP)としてモデル化し、アクションは実際のレスポンスステップを表す。
実験により、RLShieldは一定応答予算内での破壊を保ちながら、収容時間と余剰露光を減少させることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Financial systems run nonstop and must stay reliable even during cyber incidents. Modern attacks move across many services (apps, APIs, identity, payment rails), so defenders must make a sequence of actions under time pressure. Most security tools still use fixed rules or static playbooks, which can be slow to adapt when the attacker changes behavior. Reinforcement learning (RL) is a good fit for sequential decisions, but much of the RL-in-finance literature targets trading and does not model real cyber response limits such as action cost, service disruption, and defender coordination across many assets. This paper proposes RLShield, a practical multi-agent RL pipeline for financial cyber defense. We model the enterprise attack surface as a Markov decision process (MDP) where states summarize alerts, asset exposure, and service health, and actions represent real response steps (e.g., isolate a host, rotate credentials, ratelimit an API, block an account, or trigger recovery). RLShield learns coordinated policies across multiple agents (assets or service groups) and optimizes a risk-sensitive objective that balances containment speed, business disruption, and response cost. We also include a game-aware evaluation that tests policies against adaptive attackers and reports operational outcomes, not only reward. Experiments show that RLShield reduces time-to-containment and residual exposure while keeping disruption within a fixed response budget, outperforming static rule baselines and single-agent RL under the same constraints. These results suggest that multi-agent, cost-aware RL can provide a deployable layer for automated response in financial security operations.
- Abstract(参考訳): 金融システムはノンストップで動き、サイバーインシデント時にも信頼性を保たなければならない。
現代の攻撃は多くのサービス(アプリ、API、ID、支払いレール)を横断しているため、守備側は時間的プレッシャーの下で一連のアクションをしなければならない。
ほとんどのセキュリティツールは、固定されたルールや静的なプレイブックを使用しており、攻撃者が動作を変更すると、適応が遅くなる可能性がある。
強化学習(RL)はシーケンシャルな決定に適しているが、RL-in-financeの文献の多くは取引をターゲットにしており、アクションコスト、サービス破壊、多くの資産におけるディフェンダー調整のような実際のサイバー応答制限をモデル化していない。
本稿では,金融サイバー防衛のための実用的マルチエージェントRLパイプラインであるRLShieldを提案する。
私たちはエンタープライズアタックサーフェスを、警告、アセットエクスポージャー、サービスヘルスを要約したマークフ決定プロセス(MDP)としてモデル化し、アクションは実際のレスポンスステップ(例えば、ホストの分離、認証情報のローテーション、APIのレートリミット、アカウントのブロック、リカバリ)を表す。
RLShieldは、複数のエージェント(アセットまたはサービスグループ)間で協調されたポリシーを学び、封じ込め速度、ビジネス破壊、レスポンスコストのバランスをとるリスクに敏感な目標を最適化する。
また、アダプティブアタックに対するポリシーをテストし、報酬だけでなく運用成果を報告するゲームアウェア評価も含んでいる。
実験により、RLShieldは、一定応答予算内での中断を維持しながら、保持時間と残露光を低減し、同じ制約下での静的ルールベースラインと単一エージェントRLより優れた性能を示すことが示された。
これらの結果は,マルチエージェントでコストを意識したRLが,金融セキュリティ業務における自動応答のためのデプロイ可能なレイヤを提供できることを示唆している。
関連論文リスト
- Conditional Sequence Modeling for Safe Reinforcement Learning [8.858563919623082]
オフライン安全な強化学習は、固定データセットからポリシーを学習し、累積コスト制約下でのパフォーマンスを最大化することを目的としている。
既存のオフラインセーフなRLメソッドの多くは、あらかじめ指定されたしきい値の下で訓練されている。
CSMをベースとしたRCDTは,複数のコストしきい値にまたがるゼロショット展開をサポートする。
論文 参考訳(メタデータ) (2026-02-09T12:22:57Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization [1.593065406609169]
安全クリティカルな領域では、オフライン強化学習は魅力的な代替手段を提供するが、政策が破滅的な下尾リスクを伴わずに高いリターンをもたらす場合のみである。
本稿では,bfRisk-Aware Multimodal Actor-Critic (RAMAC)フレームワークを紹介する。
拡散およびフローマッチングアクターでRAMACをインスタンス化し、ほとんどのD4タスクで強いリターンを維持しながら、$mathrmaR_0.1$で一貫した利得を観察する。
論文 参考訳(メタデータ) (2025-10-03T03:22:21Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - Provably Efficient Action-Manipulation Attack Against Continuous Reinforcement Learning [49.48615590763914]
我々は,モンテカルロ木探索法を用いて効率的な行動探索と操作を行うLCBTというブラックボックス攻撃アルゴリズムを提案する。
提案手法は, DDPG, PPO, TD3の3つの攻撃的アルゴリズムに対して, 連続的な設定で実行し, 攻撃性能が期待できることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:20:29Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Structure-aware reinforcement learning for node-overload protection in
mobile edge computing [3.3865605512957457]
本研究は,エッジノードの過負荷を防止するための適応型入出力制御ポリシーを提案する。
このフレームワークは,ノードオーバーロード保護問題に対して,割引価格設定で動作するように拡張する。
実験により, SALMUTにより得られた全割引コストは, 最先端の深部RLアルゴリズムに類似していることが判明した。
論文 参考訳(メタデータ) (2021-06-29T18:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。