Fugu-MT 論文翻訳(概要): Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games

論文の概要: Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games

arxiv url: http://arxiv.org/abs/2402.18781v1
Date: Thu, 29 Feb 2024 01:07:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:34:39.646454
Title: Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games
Title（参考訳）: 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習
Authors: Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu
Abstract要約: 汎用的な非対称情報ゲームのための概念的オンライン学習手法を提案する。 COLは、隠れた状態に対する一階の信念と、相手の戦略の主観的な予測を利用する。その結果、COLは非定常攻撃に対する最先端の強化学習法よりも優れていることが示された。
参考スコア（独自算出の注目度）: 13.33996350474556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stochastic games arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures, where information asymmetry presents challenges for decision-making entities (players). Existing computational methods for asymmetric information stochastic games (AISG) are primarily offline, targeting special classes of AISGs to avoid belief hierarchies, and lack online adaptability to deviations from equilibrium. To address this limitation, we propose a conjectural online learning (COL), a learning scheme for generic AISGs. COL, structured as a forecaster-actor-critic (FAC) architecture, utilizes first-order beliefs over the hidden states and subjective forecasts of the opponent's strategies. Against the conjectured opponent, COL updates strategies in an actor-critic approach using online rollout and calibrates conjectures through Bayesian learning. We prove that conjecture in COL is asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. The resulting empirical strategy profile converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate COL's superiority over state-of-the-art reinforcement learning methods against nonstationary attacks.
Abstract（参考訳）: 確率的なゲームは、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生し、情報非対称性は意思決定エンティティ(プレイヤー)の課題を示す。非対称情報確率ゲーム(AISG)の既存の計算手法は、主にオフラインであり、信念階層を避けるためにAISGの特別なクラスをターゲットにしており、平衡からの逸脱に対するオンライン適応性を欠いている。この制限に対処するため,汎用AISGの学習手法であるConjectural Online Learning (COL)を提案する。 colは予測者-実行者-批判(fac)アーキテクチャとして構成され、隠れた状態に対する一階の信念と、相手の戦略に対する主観的な予測を利用する。予想された対戦相手に対して、コルはオンラインロールアウトとベイズ学習による予想の解法を用いて、アクター-批判的アプローチで戦略を更新する。 col における予想は、緩和されたベイズ整合性という意味での情報フィードバックと漸近的に一致することが証明される。その結果得られた経験的戦略プロファイルは、主観性の下での合理性を特徴づける解概念であるバーク・ナッシュ均衡に収束する。非定常攻撃に対する最先端の強化学習法よりもCOLの方が優れていることを示す侵入応答ユースケースによる実験結果を得た。

関連論文リスト

Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文参考訳（メタデータ） (2026-01-31T18:12:29Z)
DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文参考訳（メタデータ） (2025-07-08T03:07:15Z)
Trial and Trust: Addressing Byzantine Attacks with Comprehensive Defense Strategy [37.73859687331454]
本稿では、侵害されたクライアントが世界収束を遅らせるために敵の更新を注入する、ビザンチン攻撃という特定の脅威に対処する。信頼スコアの概念とトライアル関数の方法論を組み合わせることで、アウトレイラを動的にフィルタリングする。提案手法は,Byzantineノードが多数を占める場合でも機能を実現するため,従来のアプローチの限界に対処する。
論文参考訳（メタデータ） (2025-05-12T14:36:45Z)
FedMID: A Data-Free Method for Using Intermediate Outputs as a Defense Mechanism Against Poisoning Attacks in Federated Learning [17.796469530291954]
フェデレーション学習は、クライアントからのローカルアップデートを組み合わせてグローバルモデルを生成する。本稿では,中間出力に基づく局所モデルの関数的マッピングを用いて,フェデレート学習における中毒攻撃の防御を行う新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-04-18T05:10:05Z)
Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文参考訳（メタデータ） (2024-02-19T20:06:15Z)
Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文参考訳（メタデータ） (2024-01-01T06:53:36Z)
Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-06T18:12:07Z)
Towards Attack-tolerant Federated Learning via Critical Parameter Analysis [85.41873993551332]
フェデレートされた学習システムは、悪意のあるクライアントが中央サーバーに誤ったアップデートを送信すると、攻撃を害するおそれがある。本稿では,新たな防衛戦略であるFedCPA(Federated Learning with critical Analysis)を提案する。攻撃耐性凝集法は, 有害局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒であるのに対し, 類似したトップkおよびボトムk臨界パラメータを持つ。
論文参考訳（メタデータ） (2023-08-18T05:37:55Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
A Linearly Convergent GAN Inversion-based Algorithm for Reverse Engineering of Deceptions [1.2891210250935146]
本稿では, クリーンデータがGANの範囲内にあると仮定する, 偽装のリバースエンジニアリングのための新しい枠組みを提案する。論文の中で初めて、この問題に対して決定論的線形収束を保証する。
論文参考訳（メタデータ） (2023-06-07T20:08:27Z)
Combating Exacerbated Heterogeneity for Robust Models in Federated Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文参考訳（メタデータ） (2023-03-01T06:16:15Z)
Adversarial Training with Complementary Labels: On the Benefit of Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文参考訳（メタデータ） (2022-11-01T04:26:45Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Learning from Heterogeneous Data Based on Social Interactions over Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。私たちはそれを示します。戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。私たちはそれを示します。戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文参考訳（メタデータ） (2021-12-17T12:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。