論文の概要: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- arxiv url: http://arxiv.org/abs/2402.18781v1
- Date: Thu, 29 Feb 2024 01:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:34:39.646454
- Title: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- Title(参考訳): 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習
- Authors: Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu
- Abstract要約: 汎用的な非対称情報ゲームのための概念的オンライン学習手法を提案する。
COLは、隠れた状態に対する一階の信念と、相手の戦略の主観的な予測を利用する。
その結果、COLは非定常攻撃に対する最先端の強化学習法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 13.33996350474556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic games arise in many complex socio-technical systems, such as
cyber-physical systems and IT infrastructures, where information asymmetry
presents challenges for decision-making entities (players). Existing
computational methods for asymmetric information stochastic games (AISG) are
primarily offline, targeting special classes of AISGs to avoid belief
hierarchies, and lack online adaptability to deviations from equilibrium. To
address this limitation, we propose a conjectural online learning (COL), a
learning scheme for generic AISGs. COL, structured as a forecaster-actor-critic
(FAC) architecture, utilizes first-order beliefs over the hidden states and
subjective forecasts of the opponent's strategies. Against the conjectured
opponent, COL updates strategies in an actor-critic approach using online
rollout and calibrates conjectures through Bayesian learning. We prove that
conjecture in COL is asymptotically consistent with the information feedback in
the sense of a relaxed Bayesian consistency. The resulting empirical strategy
profile converges to the Berk-Nash equilibrium, a solution concept
characterizing rationality under subjectivity. Experimental results from an
intrusion response use case demonstrate COL's superiority over state-of-the-art
reinforcement learning methods against nonstationary attacks.
- Abstract(参考訳): 確率的なゲームは、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生し、情報非対称性は意思決定エンティティ(プレイヤー)の課題を示す。
非対称情報確率ゲーム(AISG)の既存の計算手法は、主にオフラインであり、信念階層を避けるためにAISGの特別なクラスをターゲットにしており、平衡からの逸脱に対するオンライン適応性を欠いている。
この制限に対処するため,汎用AISGの学習手法であるConjectural Online Learning (COL)を提案する。
colは予測者-実行者-批判(fac)アーキテクチャとして構成され、隠れた状態に対する一階の信念と、相手の戦略に対する主観的な予測を利用する。
予想された対戦相手に対して、コルはオンラインロールアウトとベイズ学習による予想の解法を用いて、アクター-批判的アプローチで戦略を更新する。
col における予想は、緩和されたベイズ整合性という意味での情報フィードバックと漸近的に一致することが証明される。
その結果得られた経験的戦略プロファイルは、主観性の下での合理性を特徴づける解概念であるバーク・ナッシュ均衡に収束する。
非定常攻撃に対する最先端の強化学習法よりもCOLの方が優れていることを示す侵入応答ユースケースによる実験結果を得た。
関連論文リスト
- Communication Efficient and Provable Federated Unlearning [43.178460522012934]
我々は、フェデレーション・アンラーニング(フェデレーション・アンラーニング)という、特定のクライアントやデータポイントが、フェデレーション・ラーニング(FL)を通じて学習したグローバルモデルに与える影響をなくすための新しい問題について研究する。
この問題は、忘れられる権利とFLのプライバシー問題によって引き起こされる。
我々は,テキストコミュニケーション効率とテキストテキサクト・アンラーニング性という2つの重要な基準を満たす,正確な非ラーニングのための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-01-19T20:35:02Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - A Linearly Convergent GAN Inversion-based Algorithm for Reverse
Engineering of Deceptions [1.2891210250935146]
本稿では, クリーンデータがGANの範囲内にあると仮定する, 偽装のリバースエンジニアリングのための新しい枠組みを提案する。
論文の中で初めて、この問題に対して決定論的線形収束を保証する。
論文 参考訳(メタデータ) (2023-06-07T20:08:27Z) - How to Construct Perfect and Worse-than-Coin-Flip Spoofing
Countermeasures: A Word of Warning on Shortcut Learning [20.486639064376014]
ショートカット学習(英: Shortcut learning、またはClever Hans effect)とは、学習エージェントがデータに存在する急激な相関を学習し、バイアスのあるモデルをもたらす状況を指す。
本研究では, 深層学習に基づくスプーフィング対策(CM)において, ある発話がスプーフィングされているか否かを予測するショートカットの発見に焦点をあてる。
論文 参考訳(メタデータ) (2023-05-31T15:58:37Z) - SAICL: Student Modelling with Interaction-level Auxiliary Contrastive
Tasks for Knowledge Tracing and Dropout Prediction [15.116940192251029]
本研究では,新しい学生モデリングフレームワークであるSAICLを紹介する。
クロスエントロピーと対照的な目的を組み合わせることで、提案したSAICLは、同等の知識追跡とドロップアウト予測性能を達成した。
論文 参考訳(メタデータ) (2022-10-07T14:17:22Z) - Linear Adversarial Concept Erasure [98.14246446690282]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
我々は、この問題を制約付き線形ミニマックスゲームとしてモデル化し、既存のソリューションが一般にこのタスクに最適でないことを示す。
線形であるにもかかわらず、この手法は、トラクタビリティと解釈可能性を維持しつつ、深い非線形分類器のバイアスを効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Black-box Off-policy Estimation for Infinite-Horizon Reinforcement
Learning [26.880437279977155]
医療やロボティクスといった多くの現実的な応用において、長期的問題に対するオフ・ポリティクス推定が重要である。
政治外データの収集方法を知らずに定常分布の重要度を算出する新しい推定器を開発した。
論文 参考訳(メタデータ) (2020-03-24T21:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。