論文の概要: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- arxiv url: http://arxiv.org/abs/2402.18781v1
- Date: Thu, 29 Feb 2024 01:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:34:39.646454
- Title: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- Title(参考訳): 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習
- Authors: Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu
- Abstract要約: 汎用的な非対称情報ゲームのための概念的オンライン学習手法を提案する。
COLは、隠れた状態に対する一階の信念と、相手の戦略の主観的な予測を利用する。
その結果、COLは非定常攻撃に対する最先端の強化学習法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 13.33996350474556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic games arise in many complex socio-technical systems, such as
cyber-physical systems and IT infrastructures, where information asymmetry
presents challenges for decision-making entities (players). Existing
computational methods for asymmetric information stochastic games (AISG) are
primarily offline, targeting special classes of AISGs to avoid belief
hierarchies, and lack online adaptability to deviations from equilibrium. To
address this limitation, we propose a conjectural online learning (COL), a
learning scheme for generic AISGs. COL, structured as a forecaster-actor-critic
(FAC) architecture, utilizes first-order beliefs over the hidden states and
subjective forecasts of the opponent's strategies. Against the conjectured
opponent, COL updates strategies in an actor-critic approach using online
rollout and calibrates conjectures through Bayesian learning. We prove that
conjecture in COL is asymptotically consistent with the information feedback in
the sense of a relaxed Bayesian consistency. The resulting empirical strategy
profile converges to the Berk-Nash equilibrium, a solution concept
characterizing rationality under subjectivity. Experimental results from an
intrusion response use case demonstrate COL's superiority over state-of-the-art
reinforcement learning methods against nonstationary attacks.
- Abstract(参考訳): 確率的なゲームは、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生し、情報非対称性は意思決定エンティティ(プレイヤー)の課題を示す。
非対称情報確率ゲーム(AISG)の既存の計算手法は、主にオフラインであり、信念階層を避けるためにAISGの特別なクラスをターゲットにしており、平衡からの逸脱に対するオンライン適応性を欠いている。
この制限に対処するため,汎用AISGの学習手法であるConjectural Online Learning (COL)を提案する。
colは予測者-実行者-批判(fac)アーキテクチャとして構成され、隠れた状態に対する一階の信念と、相手の戦略に対する主観的な予測を利用する。
予想された対戦相手に対して、コルはオンラインロールアウトとベイズ学習による予想の解法を用いて、アクター-批判的アプローチで戦略を更新する。
col における予想は、緩和されたベイズ整合性という意味での情報フィードバックと漸近的に一致することが証明される。
その結果得られた経験的戦略プロファイルは、主観性の下での合理性を特徴づける解概念であるバーク・ナッシュ均衡に収束する。
非定常攻撃に対する最先端の強化学習法よりもCOLの方が優れていることを示す侵入応答ユースケースによる実験結果を得た。
関連論文リスト
- FedMID: A Data-Free Method for Using Intermediate Outputs as a Defense Mechanism Against Poisoning Attacks in Federated Learning [17.796469530291954]
フェデレーション学習は、クライアントからのローカルアップデートを組み合わせてグローバルモデルを生成する。
本稿では,中間出力に基づく局所モデルの関数的マッピングを用いて,フェデレート学習における中毒攻撃の防御を行う新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-18T05:10:05Z) - Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。
我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文 参考訳(メタデータ) (2024-02-19T20:06:15Z) - Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。
近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-06T18:12:07Z) - Towards Attack-tolerant Federated Learning via Critical Parameter
Analysis [85.41873993551332]
フェデレートされた学習システムは、悪意のあるクライアントが中央サーバーに誤ったアップデートを送信すると、攻撃を害するおそれがある。
本稿では,新たな防衛戦略であるFedCPA(Federated Learning with critical Analysis)を提案する。
攻撃耐性凝集法は, 有害局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒であるのに対し, 類似したトップkおよびボトムk臨界パラメータを持つ。
論文 参考訳(メタデータ) (2023-08-18T05:37:55Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - A Linearly Convergent GAN Inversion-based Algorithm for Reverse
Engineering of Deceptions [1.2891210250935146]
本稿では, クリーンデータがGANの範囲内にあると仮定する, 偽装のリバースエンジニアリングのための新しい枠組みを提案する。
論文の中で初めて、この問題に対して決定論的線形収束を保証する。
論文 参考訳(メタデータ) (2023-06-07T20:08:27Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。