論文の概要: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- arxiv url: http://arxiv.org/abs/2402.18781v2
- Date: Mon, 4 Mar 2024 02:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:57:13.405247
- Title: Conjectural Online Learning with First-order Beliefs in Asymmetric
Information Stochastic Games
- Title(参考訳): 非対称情報確率ゲームにおける一階信念を用いた客観的オンライン学習
- Authors: Tao Li, Kim Hammar, Rolf Stadler, and Quanyan Zhu
- Abstract要約: 非対称情報ゲーム(textscaisgs)は多くの複雑な社会技術システムで発生する。
textsccolはジェネリックテキストスキャンのためのオンラインメソッドです。
我々は、textsccolによって生成される予想が、緩やかなベイズ一貫性という意味での情報フィードバックと一致することを証明した。
- 参考スコア(独自算出の注目度): 13.33996350474556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asymmetric information stochastic games (\textsc{aisg}s) arise in many
complex socio-technical systems, such as cyber-physical systems and IT
infrastructures. Existing computational methods for \textsc{aisg}s are
primarily offline and can not adapt to equilibrium deviations. Further, current
methods are limited to special classes of \textsc{aisg}s to avoid belief
hierarchies. To address these limitations, we propose conjectural online
learning (\textsc{col}), an online method for generic \textsc{aisg}s.
\textsc{col} uses a forecaster-actor-critic (\textsc{fac}) architecture where
subjective forecasts is used to conjecture the opponents' strategies and break
belief hierarchies (forecaster), online rollout is used to adapt strategies to
nonstationary environments (actor), Monte-Carlo simulation is used to estimate
costs (critic), and Bayesian learning is used to calibrate conjectures. We
prove that the conjectures produced by \textsc{col} are asymptotically
consistent with the information feedback in the sense of a relaxed Bayesian
consistency. We also prove that the empirical strategy profile induced by
\textsc{col} converges to the Berk-Nash equilibrium, a solution concept
characterizing rationality under subjectivity. Experimental results from an
intrusion response use case demonstrate \textsc{col}'s superiority over
state-of-the-art reinforcement learning methods against nonstationary attacks.
- Abstract(参考訳): 非対称情報確率ゲーム (\textsc{aisg}s) は、サイバー物理システムやITインフラなど、多くの複雑な社会技術システムで発生する。
既存の計算手法である \textsc{aisg} は主にオフラインであり、平衡偏差に適応できない。
さらに、現在のメソッドは信念階層を避けるために、 \textsc{aisg} の特別なクラスに制限される。
これらの制約に対処するため、汎用的な \textsc{aisg} のオンライン学習法である conjectural online learning (\textsc{col}) を提案する。
\textsc{col} は予測器-アクター-クリティカル (\textsc{fac}) アーキテクチャを用いており、そこでは主観的な予測が相手の戦略を推測し、信念階層を破るのに使われ、オンラインのロールアウトは非定常環境(アクター)に戦略を適用するために使用され、モンテカルロシミュレーションはコストを見積もるのに使われ、ベイズ学習は予想をキャリブレーションするために使われる。
我々は、 textsc{col} によって生成される予想が、緩和ベイズ整合という意味での情報フィードバックと漸近的に一致していることを証明する。
また,「textsc{col}」によって誘導される経験的戦略プロファイルは,主観性の下で合理性を特徴づける解の概念であるバーク・ナッシュ平衡に収束することを示した。
侵入応答を用いた実験結果から,非定常攻撃に対する最先端の強化学習法よりも,‘textsc{col}’の方が優れていることが示された。
関連論文リスト
- Communication Efficient and Provable Federated Unlearning [43.178460522012934]
我々は、フェデレーション・アンラーニング(フェデレーション・アンラーニング)という、特定のクライアントやデータポイントが、フェデレーション・ラーニング(FL)を通じて学習したグローバルモデルに与える影響をなくすための新しい問題について研究する。
この問題は、忘れられる権利とFLのプライバシー問題によって引き起こされる。
我々は,テキストコミュニケーション効率とテキストテキサクト・アンラーニング性という2つの重要な基準を満たす,正確な非ラーニングのための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-01-19T20:35:02Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - A Linearly Convergent GAN Inversion-based Algorithm for Reverse
Engineering of Deceptions [1.2891210250935146]
本稿では, クリーンデータがGANの範囲内にあると仮定する, 偽装のリバースエンジニアリングのための新しい枠組みを提案する。
論文の中で初めて、この問題に対して決定論的線形収束を保証する。
論文 参考訳(メタデータ) (2023-06-07T20:08:27Z) - How to Construct Perfect and Worse-than-Coin-Flip Spoofing
Countermeasures: A Word of Warning on Shortcut Learning [20.486639064376014]
ショートカット学習(英: Shortcut learning、またはClever Hans effect)とは、学習エージェントがデータに存在する急激な相関を学習し、バイアスのあるモデルをもたらす状況を指す。
本研究では, 深層学習に基づくスプーフィング対策(CM)において, ある発話がスプーフィングされているか否かを予測するショートカットの発見に焦点をあてる。
論文 参考訳(メタデータ) (2023-05-31T15:58:37Z) - SAICL: Student Modelling with Interaction-level Auxiliary Contrastive
Tasks for Knowledge Tracing and Dropout Prediction [15.116940192251029]
本研究では,新しい学生モデリングフレームワークであるSAICLを紹介する。
クロスエントロピーと対照的な目的を組み合わせることで、提案したSAICLは、同等の知識追跡とドロップアウト予測性能を達成した。
論文 参考訳(メタデータ) (2022-10-07T14:17:22Z) - Linear Adversarial Concept Erasure [98.14246446690282]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
我々は、この問題を制約付き線形ミニマックスゲームとしてモデル化し、既存のソリューションが一般にこのタスクに最適でないことを示す。
線形であるにもかかわらず、この手法は、トラクタビリティと解釈可能性を維持しつつ、深い非線形分類器のバイアスを効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Black-box Off-policy Estimation for Infinite-Horizon Reinforcement
Learning [26.880437279977155]
医療やロボティクスといった多くの現実的な応用において、長期的問題に対するオフ・ポリティクス推定が重要である。
政治外データの収集方法を知らずに定常分布の重要度を算出する新しい推定器を開発した。
論文 参考訳(メタデータ) (2020-03-24T21:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。