論文の概要: Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games
- arxiv url: http://arxiv.org/abs/2402.18781v4
- Date: Mon, 19 Aug 2024 16:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:37:26.309096
- Title: Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games
- Title(参考訳): 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習
- Authors: Tao Li, Kim Hammar, Rolf Stadler, Quanyan Zhu,
- Abstract要約: 非対称情報ゲーム(AISG)は多くの複雑な社会技術システムで発生する。
本稿では,AISGにおける汎用情報構造に基づくオンライン学習手法であるConjectural Online Learning (COL)を提案する。
- 参考スコア(独自算出の注目度): 13.33996350474556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asymmetric information stochastic games (AISGs) arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures. Existing computational methods for AISGs are primarily offline and can not adapt to equilibrium deviations. Further, current methods are limited to particular information structures to avoid belief hierarchies. Considering these limitations, we propose conjectural online learning (COL), an online learning method under generic information structures in AISGs. COL uses a forecaster-actor-critic (FAC) architecture, where subjective forecasts are used to conjecture the opponents' strategies within a lookahead horizon, and Bayesian learning is used to calibrate the conjectures. To adapt strategies to nonstationary environments based on information feedback, COL uses online rollout with cost function approximation (actor-critic). We prove that the conjectures produced by COL are asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. We also prove that the empirical strategy profile induced by COL converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate COL's {faster convergence} over state-of-the-art reinforcement learning methods against nonstationary attacks.
- Abstract(参考訳): 非対称情報確率ゲーム(AISG)は、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生する。
AISGの既存の計算方法は主にオフラインであり、平衡偏差に適応できない。
さらに、現在の手法は、信念階層を避けるために、特定の情報構造に限られている。
このような制約を考慮して,AISGにおける汎用情報構造に基づくオンライン学習手法であるConjectural Online Learning (COL)を提案する。
COLは予測器・アクター・クリティカル(FAC)アーキテクチャを使用し、主観的な予測は外見上の地平線内で相手の戦略を推測し、ベイズ学習は予想を校正する。
情報フィードバックに基づいて非定常環境に戦略を適用するため、COLはコスト関数近似(アクター批判)を備えたオンラインロールアウトを使用する。
我々は、COLによって生成される予想が、緩和ベイズ整合性という意味での情報フィードバックと漸近的に一致していることを証明する。
また、COLによって誘導される経験的戦略プロファイルが、主観性の下で合理性を特徴づける解の概念であるBerk-Nash平衡に収束することを証明した。
侵入応答のユースケースによる実験結果は、非定常攻撃に対する最先端の強化学習法に対するCOLの「より速い収束」を示す。
関連論文リスト
- FedMID: A Data-Free Method for Using Intermediate Outputs as a Defense Mechanism Against Poisoning Attacks in Federated Learning [17.796469530291954]
フェデレーション学習は、クライアントからのローカルアップデートを組み合わせてグローバルモデルを生成する。
本稿では,中間出力に基づく局所モデルの関数的マッピングを用いて,フェデレート学習における中毒攻撃の防御を行う新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-18T05:10:05Z) - Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。
我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文 参考訳(メタデータ) (2024-02-19T20:06:15Z) - Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。
近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-06T18:12:07Z) - Towards Attack-tolerant Federated Learning via Critical Parameter
Analysis [85.41873993551332]
フェデレートされた学習システムは、悪意のあるクライアントが中央サーバーに誤ったアップデートを送信すると、攻撃を害するおそれがある。
本稿では,新たな防衛戦略であるFedCPA(Federated Learning with critical Analysis)を提案する。
攻撃耐性凝集法は, 有害局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒であるのに対し, 類似したトップkおよびボトムk臨界パラメータを持つ。
論文 参考訳(メタデータ) (2023-08-18T05:37:55Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - A Linearly Convergent GAN Inversion-based Algorithm for Reverse
Engineering of Deceptions [1.2891210250935146]
本稿では, クリーンデータがGANの範囲内にあると仮定する, 偽装のリバースエンジニアリングのための新しい枠組みを提案する。
論文の中で初めて、この問題に対して決定論的線形収束を保証する。
論文 参考訳(メタデータ) (2023-06-07T20:08:27Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。