論文の概要: Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic
Games
- arxiv url: http://arxiv.org/abs/2202.06255v5
- Date: Wed, 12 Apr 2023 14:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 19:23:54.272383
- Title: Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic
Games
- Title(参考訳): ゼロサムニューロシンボリック同時確率ゲームのための戦略合成
- Authors: Rui Yan, Gabriel Santos, Gethin Norman, David Parker and Marta
Kwiatkowska
- Abstract要約: ニューロシンボリック同時認識ゲーム(NS-CSG)と呼ばれる新しいモデリング形式を提案する。
本稿では,ボレル状態空間を持つNS-CSGのクラスに着目し,ゼロサム割引累積報酬に対する値関数の存在と可測性を証明する。
実装可能な価値(VI)とポリシー合成戦略を初めて提示し、連続状態CSGのクラスを解決する。
- 参考スコア(独自算出の注目度): 27.96140203850222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuro-symbolic approaches to artificial intelligence, which combine neural
networks with classical symbolic techniques, are growing in prominence,
necessitating formal approaches to reason about their correctness. We propose a
novel modelling formalism called neuro-symbolic concurrent stochastic games
(NS-CSGs), which comprise probabilistic finite-state agents interacting in a
shared continuous-state environment observed through perception mechanisms
implemented as neural networks (NNs). We focus on the class of NS-CSGs with
Borel state spaces and prove the existence and measurability of the value
function for zero-sum discounted cumulative rewards under piecewise-constant
restrictions on the components of this class of models. To compute values and
synthesise strategies, we present, for the first time, implementable value
iteration (VI) and policy iteration (PI) algorithms to solve a class of
continuous-state CSGs. These require a finite representation of the pre-image
of the environment's NN perception mechanism and rely on finite abstract
representations of value functions and strategies closed under VI or PI. First,
we introduce a Borel measurable piecewise-constant (B-PWC) representation of
value functions, extend minimax backups to this representation and propose
B-PWC VI. Second, we introduce two novel representations for the value
functions and strategies, constant-piecewise-linear (CON-PWL) and
constant-piecewise-constant (CON-PWC) respectively, and propose
Minimax-action-free PI by extending a recent PI method based on alternating
player choices for finite state spaces to Borel state spaces, which does not
require normal-form games to be solved. We illustrate our approach with a
dynamic vehicle parking example by generating approximately optimal strategies
using a prototype implementation of the B-PWC VI algorithm.
- Abstract(参考訳): ニューラルネットワークと古典的な記号技法を組み合わせた人工知能へのニューロシンボリックアプローチは、その正しさを判断するために正式なアプローチを必要とする。
本稿では,ニューラル・シンボリック・コンカレント・確率ゲーム (NS-CSG) と呼ばれる,ニューラル・ネットワーク (NN) として実装された知覚機構を通して観測される共有連続状態環境において相互作用する確率的有限状態エージェントからなるモデリング形式を提案する。
本稿では,ボレル状態空間を持つNS-CSGのクラスに着目し,このモデルの成分に対する一括的制約の下でゼロサム割引累積報酬に対する値関数の存在と可測性を示す。
価値を計算し,戦略を合成するために,実装可能なバリューイテレーション (vi) とポリシーイテレーション (pi) のアルゴリズムを初めて提示し,連続状態csgのクラスを解く。
これらは環境のNN知覚機構の前像の有限表現を必要とし、VIまたはPIの下で閉じた値関数と戦略の有限抽象表現に依存する。
まず、値関数のBorel測定可能なピースワイズ定数(B-PWC)表現を導入し、ミニマックスバックアップをこの表現に拡張し、B-PWC VIを提案する。
第二に、値関数と戦略に対する2つの新しい表現、それぞれ定数ピースリニア(CON-PWL)と定数ピースリニア(CON-PWC)を導入し、有限状態空間のプレイヤー選択の交互化に基づく最近のPI法をボレル状態空間に拡張し、通常の形式ゲームを必要としないミニマックスアクションフリーPIを提案する。
提案手法は,b-pwc viアルゴリズムのプロトタイプ実装を用いて,およそ最適戦略を生成することで,動的車両パーキングの例を示す。
関連論文リスト
- Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Point-based Value Iteration for Neuro-Symbolic POMDPs [27.96140203850222]
ニューロシンボリックな部分観測可能なマルコフ決定過程(NS-POMDP)を紹介する。
NS-POMDPはニューラルネットワークを用いて連続状態環境を知覚し、象徴的な決定を行うエージェントをモデル化する。
連続状態モデルの構造を利用して有限表現性を保証する2つの値反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-30T13:26:08Z) - Verification of Neural Network Control Systems using Symbolic Zonotopes
and Polynotopes [1.0312968200748116]
ニューラルネットワーク制御システム(NNCS)の検証と安全性評価は、新たな課題である。
保証を得るためには、検証ツールは、制御ループ内のニューラルネットワークと物理システムの間の相互作用を効率的にキャプチャする必要がある。
NNCSの分析において,長期的シンボル依存の保存に焦点をあてた構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-26T11:52:14Z) - Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum
Problems [42.375903320536715]
エントロピック・フィクション・プレイ(英語: Entropic fictitious Play, EFP)は、測度空間における凸関数とエントロピーの和を最小化するアルゴリズムである。
学習問題が有限サム構造を示すような環境では、EFPの簡潔な原始双対解析を行う。
論文 参考訳(メタデータ) (2023-03-06T08:05:08Z) - Symbolic Distillation for Learned TCP Congestion Control [70.27367981153299]
TCP渋滞制御は、深層強化学習(RL)アプローチで大きな成功を収めた。
ブラックボックスポリシーは解釈可能性と信頼性に欠けており、しばしば従来のTCPデータパスの外で運用する必要がある。
本稿では,まず深部RLエージェントを訓練し,次にNNポリシーをホワイトボックスの軽量なルールに蒸留する,両世界の長所を達成するための新しい2段階のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T00:58:16Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - Towards Lightweight Controllable Audio Synthesis with Conditional
Implicit Neural Representations [10.484851004093919]
入射神経表現(英語: Implicit Neural representations、INR)は、低次元関数を近似するニューラルネットワークである。
本研究では、音声合成のための生成フレームワークの軽量バックボーンとして、CINR(Conditional Implicit Neural Representations)の可能性に光を当てた。
論文 参考訳(メタデータ) (2021-11-14T13:36:18Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。