Fugu-MT 論文翻訳(概要): Strategy Synthesis for Zero-sum Neuro-symbolic Concurrent Stochastic Games

論文の概要: Strategy Synthesis for Zero-sum Neuro-symbolic Concurrent Stochastic Games

arxiv url: http://arxiv.org/abs/2202.06255v1
Date: Sun, 13 Feb 2022 08:39:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-15 17:44:52.407874
Title: Strategy Synthesis for Zero-sum Neuro-symbolic Concurrent Stochastic Games
Title（参考訳）: ゼロサムニューロシンボリック同時確率ゲームのための戦略合成
Authors: Rui Yan, Gabriel Santos, Gethin Norman, David Parker and Marta Kwiatkowska
Abstract要約: ニューロシンボリック・コンカレントゲーム(NS-CSG)と呼ばれる新しいモデリング形式を提案する。本稿では,ボレル状態空間とボレル可測性制約を持つNS-CSGのクラスに着目した。我々は、初めて、可算な状態空間CSGのクラスを解くために、反復とポリシーのアルゴリズムを提示し、それらの収束を証明した。
参考スコア（独自算出の注目度）: 27.96140203850222
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise a set of probabilistic finite-state agents interacting in a shared continuous-state environment, observed through perception mechanisms implemented as neural networks. Since the environment state space is continuous, we focus on the class of NS-CSGs with Borel state spaces and Borel measurability restrictions on the components of the model. We consider the problem of zero-sum discounted cumulative reward, proving that NS-CSGs are determined and therefore have a value which corresponds to a unique fixed point. From an algorithmic perspective, existing methods to compute values and optimal strategies for CSGs focus on finite state spaces. We present, for the first time, value iteration and policy iteration algorithms to solve a class of uncountable state space CSGs, and prove their convergence. Our approach works by formulating piecewise linear or constant representations of the value functions and strategies of NS-CSGs. We validate the approach with a prototype implementation applied to a dynamic vehicle parking example.
Abstract（参考訳）: ニューラルネットワークと古典的な記号技法を組み合わせた人工知能へのニューロシンボリックアプローチは、その正しさを判断するために正式なアプローチを必要とする。本稿では,ニューラル・シンボリック・コンカレント・確率ゲーム (NS-CSGs) と呼ばれる,ニューラル・シンボリック・コンカレント・確率論的ゲーム (NS-CSGs) と呼ばれる,ニューラル・ネットワークとして実装された知覚機構を通して,共有状態環境において相互作用する確率的有限状態エージェントからなる新しいモデリング形式モデルを提案する。環境状態空間は連続であるため、ボレル状態空間を持つNS-CSGのクラスとモデルのコンポーネントに対するボレル可測性制限に焦点を当てる。我々は, ns-csgs が決定され, したがって一意の不動点に対応する値を持つことを証明するため, ゼロサム割引累積報酬の問題を考える。アルゴリズムの観点から、CSGの計算値と最適戦略を計算するための既存の手法は有限状態空間にフォーカスする。我々は、初めて値反復とポリシー反復アルゴリズムを提示し、非可算な状態空間CSGのクラスを解き、それらの収束性を証明する。提案手法は, NS-CSG の値関数と戦略の断片的線形あるいは定数表現を定式化する。提案手法を,動的車両駐車事例に適用したプロトタイプ実装を用いて検証する。

関連論文リスト

Neuronal Attention Circuit (NAC) for Representation Learning [2.0573301822495553]
線形一階ODEの解法としてアテンションロジット計算を再構成するCT-Attention機構を導入する。我々は、不規則な時系列分類、自動運転車の車線維持、産業の予後など、さまざまな領域でNACを実装している。
論文参考訳（メタデータ） (2025-12-11T04:49:44Z)
Scalable Quantum Walk-Based Heuristics for the Minimum Vertex Cover Problem [0.0]
連続時間量子ウォーク(CTQW)に基づく最小頂点被覆(MVC)問題に対する新しい量子アルゴリズムを提案する。この枠組みでは、グラフ上の量子ウォーカーのコヒーレントな伝播は、その構造特性を状態振幅に符号化する。我々は,CTQWに基づくアルゴリズムが優れた近似比を一貫して達成し,ネットワークトポロジに関して顕著な堅牢性を示すことを示す。
論文参考訳（メタデータ） (2025-12-02T17:04:57Z)
Chaos into Order: Neural Framework for Expected Value Estimation of Stochastic Partial Differential Equations [0.9944647907864256]
本稿では,離散化の必要性を排除し,不確実性を明示的にモデル化するSPDE推定のための新しいニューラルネットワークフレームワークを提案する。これは、SPDEの期待値を直接非分散的に推定できる最初のニューラルネットワークフレームワークであり、科学計算における一歩となる。本研究は, ニューラルベースSPDEソルバの潜在可能性, 特に従来の手法が不安定な高次元問題に対する可能性を明らかにした。
論文参考訳（メタデータ） (2025-02-05T23:27:28Z)
Compositional Generalization Across Distributional Shifts with Sparse Tree Operations [77.5742801509364]
我々は、微分可能木機械と呼ばれる統合されたニューロシンボリックアーキテクチャを導入する。シンボル構造の疎ベクトル表現を用いることで,モデルの効率を大幅に向上する。より一般的なseq2seq問題に制限されたtree2tree問題以外の適用を可能にする。
論文参考訳（メタデータ） (2024-12-18T17:20:19Z)
BlendRL: A Framework for Merging Symbolic and Neural Policy Learning [23.854830898003726]
BlendRLは、論理とニューラルポリシーの混合を使用するRLエージェントに両方のパラダイムを統合する、ニューラルシンボリックなRLフレームワークである。我々は,BlendRLエージェントが標準アタリ環境において,ニューラルベースラインとシンボリックベースラインの両方より優れていることを実証的に実証した。ニューラルポリシーとシンボリックポリシーの相互作用を分析し、それらのハイブリッド利用がエージェントの制限を克服するのにどのように役立つかを説明する。
論文参考訳（メタデータ） (2024-10-15T15:24:20Z)
How to discretize continuous state-action spaces in Q-learning: A symbolic control approach [0.0]
本稿では,空間離散化法における大きな欠点を浮き彫りにした系統解析について述べる。この課題に対処するために,行動関係を表す記号モデルを提案する。この関係により、オリジナルのシステムへの抽象化に基づいて、合成されたコントローラをシームレスに適用することができる。
論文参考訳（メタデータ） (2024-06-03T17:30:42Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Point-Based Value Iteration for POMDPs with Neural Perception Mechanisms [31.51588071503617]
ニューロシンボリックな部分観測可能なマルコフ決定過程(NS-POMDP)を紹介する。状態空間と値ベクトルを包含するポリヘドラを用いて, 分割線形凸表現(P-PWLC)を提案する。本稿では,ReLUニューラルネットワークを知覚機能として用いた2つのケーススタディに対して,本手法の実用性を示す。
論文参考訳（メタデータ） (2023-06-30T13:26:08Z)
Verification of Neural Network Control Systems using Symbolic Zonotopes and Polynotopes [1.0312968200748116]
ニューラルネットワーク制御システム(NNCS)の検証と安全性評価は、新たな課題である。保証を得るためには、検証ツールは、制御ループ内のニューラルネットワークと物理システムの間の相互作用を効率的にキャプチャする必要がある。 NNCSの分析において,長期的シンボル依存の保存に焦点をあてた構成的アプローチを提案する。
論文参考訳（メタデータ） (2023-06-26T11:52:14Z)
Symbolic Distillation for Learned TCP Congestion Control [70.27367981153299]
TCP渋滞制御は、深層強化学習(RL)アプローチで大きな成功を収めた。ブラックボックスポリシーは解釈可能性と信頼性に欠けており、しばしば従来のTCPデータパスの外で運用する必要がある。本稿では,まず深部RLエージェントを訓練し,次にNNポリシーをホワイトボックスの軽量なルールに蒸留する,両世界の長所を達成するための新しい2段階のソリューションを提案する。
論文参考訳（メタデータ） (2022-10-24T00:58:16Z)
Exploration Policies for On-the-Fly Controller Synthesis: A Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文参考訳（メタデータ） (2022-10-07T20:28:25Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。