論文の概要: Point-based Value Iteration for Neuro-Symbolic POMDPs
- arxiv url: http://arxiv.org/abs/2306.17639v1
- Date: Fri, 30 Jun 2023 13:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:13:45.553752
- Title: Point-based Value Iteration for Neuro-Symbolic POMDPs
- Title(参考訳): ニューロシンボリックPOMDPのポイントベース値反復
- Authors: Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta
Kwiatkowska
- Abstract要約: ニューロシンボリックな部分観測可能なマルコフ決定過程(NS-POMDP)を紹介する。
NS-POMDPはニューラルネットワークを用いて連続状態環境を知覚し、象徴的な決定を行うエージェントをモデル化する。
連続状態モデルの構造を利用して有限表現性を保証する2つの値反復アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 27.96140203850222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuro-symbolic artificial intelligence is an emerging area that combines
traditional symbolic techniques with neural networks. In this paper, we
consider its application to sequential decision making under uncertainty. We
introduce neuro-symbolic partially observable Markov decision processes
(NS-POMDPs), which model an agent that perceives a continuous-state environment
using a neural network and makes decisions symbolically, and study the problem
of optimising discounted cumulative rewards. This requires functions over
continuous-state beliefs, for which we propose a novel piecewise linear and
convex representation (P-PWLC) in terms of polyhedra covering the
continuous-state space and value vectors, and extend Bellman backups to this
representation. We prove the convexity and continuity of value functions and
present two value iteration algorithms that ensure finite representability by
exploiting the underlying structure of the continuous-state model and the
neural perception mechanism. The first is a classical (exact) value iteration
algorithm extending $\alpha$-functions of Porta et al (2006) to the P-PWLC
representation for continuous-state spaces. The second is a point-based
(approximate) method called NS-HSVI, which uses the P-PWLC representation and
belief-value induced functions to approximate value functions from below and
above for two types of beliefs, particle-based and region-based. Using a
prototype implementation, we show the practical applicability of our approach
on two case studies that employ (trained) ReLU neural networks as perception
functions, dynamic car parking and an aircraft collision avoidance system, by
synthesising (approximately) optimal strategies. An experimental comparison
with the finite-state POMDP solver SARSOP demonstrates that NS-HSVI is more
robust to particle disturbances.
- Abstract(参考訳): ニューロシンボリック人工知能は、伝統的なシンボル技術とニューラルネットワークを組み合わせた新興分野である。
本稿では,不確実性を考慮した逐次意思決定への応用について考察する。
本稿では,神経シンボリック部分可観測マルコフ決定過程(ns-pomdps)を紹介し,ニューラルネットワークを用いて連続状態環境を知覚し,シンボル的に決定を行うエージェントをモデル化し,ディスカウント累積報酬を最適化する問題について検討する。
このためには、連続状態空間と値ベクトルをカバーするポリヘドラという観点で、一意に線形かつ凸表現(P-PWLC)を提案し、ベルマンのバックアップをこの表現に拡張する必要がある。
我々は,値関数の凸性と連続性を証明し,連続状態モデルと神経知覚機構の基盤構造を利用して,有限表現性を保証する2つの値反復アルゴリズムを提案する。
1つは古典的(実際に)値反復アルゴリズムで、Porta et al (2006) の$\alpha$-functions を連続状態空間の P-PWLC 表現に拡張する。
2つ目はNS-HSVIと呼ばれる点ベース(近似)法であり、P-PWLC表現と信念値誘導関数を用いて、粒子ベースと領域ベースという2種類の信念に対して下から上の値関数を近似する。
プロトタイプ実装を用いて,ReLUニューラルネットワークを認識機能,動的駐車場,航空機衝突回避システムとして活用する2つのケーススタディに対して,(ほぼ)最適戦略を合成し,本手法の有効性を実証した。
有限状態POMDPソルバSARSOPとの比較実験により、NS-HSVIは粒子の乱れに対してより堅牢であることが示された。
関連論文リスト
- Verification of Neural Network Control Systems using Symbolic Zonotopes
and Polynotopes [1.0312968200748116]
ニューラルネットワーク制御システム(NNCS)の検証と安全性評価は、新たな課題である。
保証を得るためには、検証ツールは、制御ループ内のニューラルネットワークと物理システムの間の相互作用を効率的にキャプチャする必要がある。
NNCSの分析において,長期的シンボル依存の保存に焦点をあてた構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-26T11:52:14Z) - Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum
Problems [42.375903320536715]
エントロピック・フィクション・プレイ(英語: Entropic fictitious Play, EFP)は、測度空間における凸関数とエントロピーの和を最小化するアルゴリズムである。
学習問題が有限サム構造を示すような環境では、EFPの簡潔な原始双対解析を行う。
論文 参考訳(メタデータ) (2023-03-06T08:05:08Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Sequence Learning Using Equilibrium Propagation [2.3361887733755897]
Equilibrium Propagation (EP) は、バックプロパゲーションのような従来の学習フレームワークに代わる、強力でより生物学的な代替手段である。
現代のホップフィールドネットワークにおける最近の発展を利用して、エネルギーベースモデルをさらに理解し、EPを用いた複雑なシーケンス分類タスクのためのソリューションを開発する。
論文 参考訳(メタデータ) (2022-09-14T20:01:22Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games [31.51588071503617]
ニューロシンボリック・コンカレントゲーム(NS-CSG)と呼ばれる新しいモデリング形式を提案する。
本稿では,ボレル状態空間を持つNS-CSGのクラスに着目し,ゼロサム割引累積報酬に対する値関数の存在と可測性を証明する。
我々は,この連続状態CSGの新たなサブクラスを解くために,実用的価値反復(VI)とポリシー反復(PI)アルゴリズムを初めて提示する。
論文 参考訳(メタデータ) (2022-02-13T08:39:00Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。