論文の概要: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- arxiv url: http://arxiv.org/abs/2402.18781v2
- Date: Mon, 4 Mar 2024 02:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:57:13.405247
- Title: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- Title(参考訳): 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習
- Authors: Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu
- Abstract要約: 非対称情報ゲーム(textscaisgs)は多くの複雑な社会技術システムで発生する。
textsccolはジェネリックテキストスキャンのためのオンラインメソッドです。
我々は、textsccolによって生成される予想が、緩やかなベイズ一貫性という意味での情報フィードバックと一致することを証明した。
- 参考スコア(独自算出の注目度): 13.33996350474556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asymmetric information stochastic games (\textsc{aisg}s) arise in many
complex socio-technical systems, such as cyber-physical systems and IT
infrastructures. Existing computational methods for \textsc{aisg}s are
primarily offline and can not adapt to equilibrium deviations. Further, current
methods are limited to special classes of \textsc{aisg}s to avoid belief
hierarchies. To address these limitations, we propose conjectural online
learning (\textsc{col}), an online method for generic \textsc{aisg}s.
\textsc{col} uses a forecaster-actor-critic (\textsc{fac}) architecture where
subjective forecasts is used to conjecture the opponents' strategies and break
belief hierarchies (forecaster), online rollout is used to adapt strategies to
nonstationary environments (actor), Monte-Carlo simulation is used to estimate
costs (critic), and Bayesian learning is used to calibrate conjectures. We
prove that the conjectures produced by \textsc{col} are asymptotically
consistent with the information feedback in the sense of a relaxed Bayesian
consistency. We also prove that the empirical strategy profile induced by
\textsc{col} converges to the Berk-Nash equilibrium, a solution concept
characterizing rationality under subjectivity. Experimental results from an
intrusion response use case demonstrate \textsc{col}'s superiority over
state-of-the-art reinforcement learning methods against nonstationary attacks.
- Abstract(参考訳): 非対称情報確率ゲーム (\textsc{aisg}s) は、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生する。
既存の計算手法である \textsc{aisg} は主にオフラインであり、平衡偏差に適応できない。
さらに、現在のメソッドは信念階層を避けるために、 \textsc{aisg} の特別なクラスに制限される。
これらの制約に対処するため、汎用的な \textsc{aisg} のオンライン学習法である conjectural online learning (\textsc{col}) を提案する。
\textsc{col} は予測器-アクター-クリティカル (\textsc{fac}) アーキテクチャを用いており、そこでは主観的な予測が相手の戦略を推測し、信念階層を破るのに使われ、オンラインのロールアウトは非定常環境(アクター)に戦略を適用するために使用され、モンテカルロシミュレーションはコストを見積もるのに使われ、ベイズ学習は予想をキャリブレーションするために使われる。
我々は、 textsc{col} によって生成される予想が、緩和ベイズ整合という意味での情報フィードバックと漸近的に一致していることを証明する。
また,「textsc{col}」によって誘導される経験的戦略プロファイルは,主観性の下で合理性を特徴づける解の概念であるバーク・ナッシュ平衡に収束することを示した。
侵入応答を用いた実験結果から,非定常攻撃に対する最先端の強化学習法よりも,‘textsc{col}’の方が優れていることが示された。
関連論文リスト
- FedMID: A Data-Free Method for Using Intermediate Outputs as a Defense Mechanism Against Poisoning Attacks in Federated Learning [17.796469530291954]
フェデレーション学習は、クライアントからのローカルアップデートを組み合わせてグローバルモデルを生成する。
本稿では,中間出力に基づく局所モデルの関数的マッピングを用いて,フェデレート学習における中毒攻撃の防御を行う新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-18T05:10:05Z) - Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。
我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文 参考訳(メタデータ) (2024-02-19T20:06:15Z) - Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。
近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。
本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:53:36Z) - Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。
近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-06T18:12:07Z) - Towards Attack-tolerant Federated Learning via Critical Parameter
Analysis [85.41873993551332]
フェデレートされた学習システムは、悪意のあるクライアントが中央サーバーに誤ったアップデートを送信すると、攻撃を害するおそれがある。
本稿では,新たな防衛戦略であるFedCPA(Federated Learning with critical Analysis)を提案する。
攻撃耐性凝集法は, 有害局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒であるのに対し, 類似したトップkおよびボトムk臨界パラメータを持つ。
論文 参考訳(メタデータ) (2023-08-18T05:37:55Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - A Linearly Convergent GAN Inversion-based Algorithm for Reverse
Engineering of Deceptions [1.2891210250935146]
本稿では, クリーンデータがGANの範囲内にあると仮定する, 偽装のリバースエンジニアリングのための新しい枠組みを提案する。
論文の中で初めて、この問題に対して決定論的線形収束を保証する。
論文 参考訳(メタデータ) (2023-06-07T20:08:27Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。