Fugu-MT 論文翻訳(概要): Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games

論文の概要: Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games

arxiv url: http://arxiv.org/abs/2402.18781v2
Date: Mon, 4 Mar 2024 02:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 21:57:13.405247
Title: Conjectural Online Learning with First-order Beliefs in Asymmetric Information Stochastic Games
Title（参考訳）: 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習
Authors: Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu
Abstract要約: 非対称情報ゲーム(textscaisgs)は多くの複雑な社会技術システムで発生する。 textsccolはジェネリックテキストスキャンのためのオンラインメソッドです。我々は、textsccolによって生成される予想が、緩やかなベイズ一貫性という意味での情報フィードバックと一致することを証明した。
参考スコア（独自算出の注目度）: 13.33996350474556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Asymmetric information stochastic games (\textsc{aisg}s) arise in many complex socio-technical systems, such as cyber-physical systems and IT infrastructures. Existing computational methods for \textsc{aisg}s are primarily offline and can not adapt to equilibrium deviations. Further, current methods are limited to special classes of \textsc{aisg}s to avoid belief hierarchies. To address these limitations, we propose conjectural online learning (\textsc{col}), an online method for generic \textsc{aisg}s. \textsc{col} uses a forecaster-actor-critic (\textsc{fac}) architecture where subjective forecasts is used to conjecture the opponents' strategies and break belief hierarchies (forecaster), online rollout is used to adapt strategies to nonstationary environments (actor), Monte-Carlo simulation is used to estimate costs (critic), and Bayesian learning is used to calibrate conjectures. We prove that the conjectures produced by \textsc{col} are asymptotically consistent with the information feedback in the sense of a relaxed Bayesian consistency. We also prove that the empirical strategy profile induced by \textsc{col} converges to the Berk-Nash equilibrium, a solution concept characterizing rationality under subjectivity. Experimental results from an intrusion response use case demonstrate \textsc{col}'s superiority over state-of-the-art reinforcement learning methods against nonstationary attacks.
Abstract（参考訳）: 非対称情報確率ゲーム (\textsc{aisg}s) は、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生する。既存の計算手法である \textsc{aisg} は主にオフラインであり、平衡偏差に適応できない。さらに、現在のメソッドは信念階層を避けるために、 \textsc{aisg} の特別なクラスに制限される。これらの制約に対処するため、汎用的な \textsc{aisg} のオンライン学習法である conjectural online learning (\textsc{col}) を提案する。 \textsc{col} は予測器-アクター-クリティカル (\textsc{fac}) アーキテクチャを用いており、そこでは主観的な予測が相手の戦略を推測し、信念階層を破るのに使われ、オンラインのロールアウトは非定常環境(アクター)に戦略を適用するために使用され、モンテカルロシミュレーションはコストを見積もるのに使われ、ベイズ学習は予想をキャリブレーションするために使われる。我々は、 textsc{col} によって生成される予想が、緩和ベイズ整合という意味での情報フィードバックと漸近的に一致していることを証明する。また,「textsc{col}」によって誘導される経験的戦略プロファイルは,主観性の下で合理性を特徴づける解の概念であるバーク・ナッシュ平衡に収束することを示した。侵入応答を用いた実験結果から,非定常攻撃に対する最先端の強化学習法よりも,‘textsc{col}’の方が優れていることが示された。

関連論文リスト

Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文参考訳（メタデータ） (2026-01-31T18:12:29Z)
DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文参考訳（メタデータ） (2025-07-08T03:07:15Z)
Trial and Trust: Addressing Byzantine Attacks with Comprehensive Defense Strategy [37.73859687331454]
本稿では、侵害されたクライアントが世界収束を遅らせるために敵の更新を注入する、ビザンチン攻撃という特定の脅威に対処する。信頼スコアの概念とトライアル関数の方法論を組み合わせることで、アウトレイラを動的にフィルタリングする。提案手法は,Byzantineノードが多数を占める場合でも機能を実現するため,従来のアプローチの限界に対処する。
論文参考訳（メタデータ） (2025-05-12T14:36:45Z)
FedMID: A Data-Free Method for Using Intermediate Outputs as a Defense Mechanism Against Poisoning Attacks in Federated Learning [17.796469530291954]
フェデレーション学習は、クライアントからのローカルアップデートを組み合わせてグローバルモデルを生成する。本稿では,中間出力に基づく局所モデルの関数的マッピングを用いて,フェデレート学習における中毒攻撃の防御を行う新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-04-18T05:10:05Z)
Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文参考訳（メタデータ） (2024-02-19T20:06:15Z)
Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning [0.5999777817331317]
データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
論文参考訳（メタデータ） (2024-01-01T06:53:36Z)
Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-06T18:12:07Z)
Towards Attack-tolerant Federated Learning via Critical Parameter Analysis [85.41873993551332]
フェデレートされた学習システムは、悪意のあるクライアントが中央サーバーに誤ったアップデートを送信すると、攻撃を害するおそれがある。本稿では,新たな防衛戦略であるFedCPA(Federated Learning with critical Analysis)を提案する。攻撃耐性凝集法は, 有害局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒局所モデルでは有毒であるのに対し, 類似したトップkおよびボトムk臨界パラメータを持つ。
論文参考訳（メタデータ） (2023-08-18T05:37:55Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
A Linearly Convergent GAN Inversion-based Algorithm for Reverse Engineering of Deceptions [1.2891210250935146]
本稿では, クリーンデータがGANの範囲内にあると仮定する, 偽装のリバースエンジニアリングのための新しい枠組みを提案する。論文の中で初めて、この問題に対して決定論的線形収束を保証する。
論文参考訳（メタデータ） (2023-06-07T20:08:27Z)
Combating Exacerbated Heterogeneity for Robust Models in Federated Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文参考訳（メタデータ） (2023-03-01T06:16:15Z)
Adversarial Training with Complementary Labels: On the Benefit of Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文参考訳（メタデータ） (2022-11-01T04:26:45Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Learning from Heterogeneous Data Based on Social Interactions over Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。私たちはそれを示します。戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。私たちはそれを示します。戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文参考訳（メタデータ） (2021-12-17T12:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。