論文の概要: On Alternating-time Temporal Logic, Hyperproperties, and Strategy
Sharing
- arxiv url: http://arxiv.org/abs/2312.12403v1
- Date: Tue, 19 Dec 2023 18:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:25:27.571319
- Title: On Alternating-time Temporal Logic, Hyperproperties, and Strategy
Sharing
- Title(参考訳): 交互時間時相論理、ハイパープロペラティ、戦略共有について
- Authors: Raven Beutner, Bernd Finkbeiner
- Abstract要約: We show that HyperATL$*_S$ is a rich specification language that captures important AI-related properties。
我々はHyMASMCと呼ぶツールにモデルチェックアルゴリズムを実装し、それを様々なベンチマークで評価する。
- 参考スコア(独自算出の注目度): 5.584060970507506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alternating-time temporal logic (ATL$^*$) is a well-established framework for
formal reasoning about multi-agent systems. However, while ATL$^*$ can reason
about the strategic ability of agents (e.g., some coalition $A$ can ensure that
a goal is reached eventually), we cannot compare multiple strategic
interactions, nor can we require multiple agents to follow the same strategy.
For example, we cannot state that coalition $A$ can reach a goal sooner (or
more often) than some other coalition $A'$. In this paper, we propose
HyperATLS$^*_S$, an extension of ATL$^*$ in which we can (1) compare the
outcome of multiple strategic interactions w.r.t. a hyperproperty, i.e., a
property that refers to multiple paths at the same time, and (2) enforce that
some agents share the same strategy. We show that HyperATL$^*_S$ is a rich
specification language that captures important AI-related properties that were
out of reach of existing logics. We prove that model checking of HyperATL$^*_S$
on concurrent game structures is decidable. We implement our model-checking
algorithm in a tool we call HyMASMC and evaluate it on a range of benchmarks.
- Abstract(参考訳): 交代時間時間論理(ATL$^*$)はマルチエージェントシステムに関する公式推論のための確立されたフレームワークである。
しかし、atl$^*$はエージェントの戦略的能力(例えば、いくつかの連立$a$は目標が最終的に達成されることを保証する)を判断できるが、複数の戦略的な相互作用を比較することはできないし、複数のエージェントが同じ戦略に従う必要もない。
例えば、coalition $a$は他のcoalition $a'$よりも早く(またはもっと頻繁に)目標に到達できると言うことはできない。
本稿では,ATL$^*$の拡張であるHyperATLS$^*_S$を提案し,(1)複数の戦略的相互作用の結果を比較することができる。
HyperATL$^*_S$は、既存のロジックに及ばない重要なAI関連プロパティをキャプチャするリッチな仕様言語であることを示す。
並列ゲーム構造上でのHyperATL$^*_S$のモデルチェックは決定可能であることを示す。
我々はHyMASMCと呼ぶツールにモデルチェックアルゴリズムを実装し、それを様々なベンチマークで評価する。
関連論文リスト
- Hyper Strategy Logic [4.726777092009553]
戦略論理(SL)は、マルチエージェントシステムにおける戦略的推論を可能にする強力な時間論理である。
ハイパー戦略論理(HyperSL)は、複数の戦略プロファイルの結果をハイパープロパティで比較できる戦略論理である。
本稿では,非干渉,定量的なナッシュ均衡,最適対向計画,不完全な情報に基づく推論など,SLで表現できない重要な特性をHyperSLで捉えることができることを示す。
論文 参考訳(メタデータ) (2024-03-20T16:47:53Z) - The Alternating-Time \mu-Calculus With Disjunctive Explicit Strategies [1.7725414095035827]
同時ゲーム構造におけるエージェントの連立の戦略能力について検討する。
論理の重要な要素は、あるエージェントの連立が与えられた目標を強制するための共同戦略を持つことを示す経路定量化器である。
我々は, ATLES を固定点演算子と戦略解離で拡張し, 明示的な戦略で時相の $mu$-calculus に到達する。
論文 参考訳(メタデータ) (2023-05-30T07:16:59Z) - Can We Find Nash Equilibria at a Linear Rate in Markov Games? [95.10091348976779]
マルチプレイヤーゼロサム割引マルコフゲームにおける分散学習について検討した。
目標は、2つの特性を満たすエージェントのポリシー最適化アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2023-03-03T02:40:26Z) - Hierarchical Strategies for Cooperative Multi-Agent Reinforcement
Learning [0.0]
本稿では,新たな情報理論目標と軌道予測モデルを組み合わせた2段階階層アーキテクチャを提案する。
提案手法は,超硬度SCIIシナリオを解く最初のMARLアルゴリズムとして,我々の知る限り,この技術の新たな状態を確立するものであることを示す。
メソッドのビデオと簡単な概要は、https://sites.google.com/view/hier-strats-marl/home.comで公開されている。
論文 参考訳(メタデータ) (2022-12-14T18:27:58Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Provably Efficient Offline Multi-agent Reinforcement Learning via
Strategy-wise Bonus [48.34563955829649]
本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。
2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。
すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
論文 参考訳(メタデータ) (2022-06-01T00:18:15Z) - Coordinated Attacks against Contextual Bandits: Fundamental Limits and
Defense Mechanisms [75.17357040707347]
オンラインレコメンデーションシステムによってモチベーションされた我々は,文脈的包帯における最適政策の発見問題を提案する。
目標は、優れたユーザに対する報酬を可能な限り少ないユーザインタラクションで最大化するポリシーを、しっかりと学習することだ。
効率的なロバストな平均推定器を用いることで、$tildeO(min(S,A)cdot alpha/epsilon2)$ upper-boundを実現できることを示す。
論文 参考訳(メタデータ) (2022-01-30T01:45:13Z) - Decentralized Cooperative Reinforcement Learning with Hierarchical
Information Structure [14.919120396838208]
本稿では,2エージェントマルチアームバンド (MABs) とマルコフ決定プロセス (MDPs) を,アプリケーションに生じる階層的情報構造を用いて検討する。
それぞれのステップにおいて、"リーダー"はまず彼女の行動を選択し、その後に"フォロワー"はリーダーの行動を観察して自分の行動を決定する。
MDP設定の場合、$widetildemathcalO(sqrtH7S2ABT)$ regret, where $H$ is the number of episode, $S$ is the number of states。
論文 参考訳(メタデータ) (2021-11-01T09:18:07Z) - Communication Efficient Parallel Reinforcement Learning [34.77250498401055]
我々は、$m$エージェントが$s$状態と$a$アクションを持つ$m$同一および独立環境と相互作用する問題を考える。
我々はエージェントが不適切なコミュニケーションラウンドで後悔を最小限に抑えるアルゴリズムを見つけることを目的としている。
論文 参考訳(メタデータ) (2021-02-22T02:46:36Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。