論文の概要: Point-Based Value Iteration for POMDPs with Neural Perception Mechanisms
- arxiv url: http://arxiv.org/abs/2306.17639v2
- Date: Wed, 7 Aug 2024 08:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 18:33:27.178845
- Title: Point-Based Value Iteration for POMDPs with Neural Perception Mechanisms
- Title(参考訳): ニューラルパーセプション機構を持つPMDPのポイントベース値反復
- Authors: Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta Kwiatkowska,
- Abstract要約: ニューロシンボリックな部分観測可能なマルコフ決定過程(NS-POMDP)を紹介する。
状態空間と値ベクトルを包含するポリヘドラを用いて, 分割線形凸表現(P-PWLC)を提案する。
本稿では,ReLUニューラルネットワークを知覚機能として用いた2つのケーススタディに対して,本手法の実用性を示す。
- 参考スコア(独自算出の注目度): 31.51588071503617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing trend to integrate neural networks and conventional software components in safety-critical settings calls for methodologies for their formal modelling, verification and correct-by-construction policy synthesis. We introduce neuro-symbolic partially observable Markov decision processes (NS-POMDPs), a variant of continuous-state POMDPs with discrete observations and actions, in which the agent perceives a continuous-state environment using a neural {\revise perception mechanism} and makes decisions symbolically. The perception mechanism classifies inputs such as images and sensor values into symbolic percepts, which are used in decision making. We study the problem of optimising discounted cumulative rewards for NS-POMDPs. Working directly with the continuous state space, we exploit the underlying structure of the model and the neural perception mechanism to propose a novel piecewise linear and convex representation (P-PWLC) in terms of polyhedra covering the state space and value vectors, and extend Bellman backups to this representation. We prove the convexity and continuity of value functions and present two value iteration algorithms that ensure finite representability. The first is a classical (exact) value iteration algorithm extending the $\alpha$-functions of Porta {\em et al} (2006) to the P-PWLC representation for continuous-state spaces. The second is a point-based (approximate) method called NS-HSVI, which uses the P-PWLC representation and belief-value induced functions to approximate value functions from below and above for two types of beliefs, particle-based and region-based. Using a prototype implementation, we show the practical applicability of our approach on two case studies that employ (trained) ReLU neural networks as perception functions, by synthesising (approximately) optimal strategies.
- Abstract(参考訳): ニューラルネットワークと従来型のソフトウェアコンポーネントを安全クリティカルな設定で統合する傾向が強まり、形式的なモデリング、検証、コンストラクションポリシ合成のための方法論が求められている。
本稿では,ニューロ・シンボリックな部分観測可能なマルコフ決定過程 (NS-POMDPs) を導入し, エージェントがニューラル・リビジョン認知機構を用いて連続状態環境を知覚し, シンボリックな決定を行う。
知覚メカニズムは、画像やセンサ値などの入力を、意思決定に使用されるシンボルパーセプションに分類する。
NS-POMDPの累積報酬を最適化する問題について検討する。
連続状態空間を直接扱うことで、モデルの基本構造とニューラル認知機構を利用して、状態空間と値ベクトルをカバーしたポリヘドラを用いて、新しいピースワイド線形凸表現(P-PWLC)を提案し、ベルマンのバックアップをこの表現に拡張する。
本稿では,値関数の凸性と連続性を証明し,有限表現性を保証する2つの値反復アルゴリズムを提案する。
1つ目は、Porta {\em et al} (2006) の$\alpha$-functions を連続状態空間の P-PWLC 表現に拡張する古典的な(実際に)値反復アルゴリズムである。
2つ目はNS-HSVIと呼ばれる点ベース(近似)法であり、P-PWLC表現と信念値誘導関数を用いて、粒子ベースと領域ベースという2種類の信念に対して下から上の値関数を近似する。
本稿では,ReLUニューラルネットワークを知覚関数として用いた2つのケーススタディに対して,提案手法の実用性を示す。
関連論文リスト
- Verification of Neural Network Control Systems using Symbolic Zonotopes
and Polynotopes [1.0312968200748116]
ニューラルネットワーク制御システム(NNCS)の検証と安全性評価は、新たな課題である。
保証を得るためには、検証ツールは、制御ループ内のニューラルネットワークと物理システムの間の相互作用を効率的にキャプチャする必要がある。
NNCSの分析において,長期的シンボル依存の保存に焦点をあてた構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-26T11:52:14Z) - Primal and Dual Analysis of Entropic Fictitious Play for Finite-sum
Problems [42.375903320536715]
エントロピック・フィクション・プレイ(英語: Entropic fictitious Play, EFP)は、測度空間における凸関数とエントロピーの和を最小化するアルゴリズムである。
学習問題が有限サム構造を示すような環境では、EFPの簡潔な原始双対解析を行う。
論文 参考訳(メタデータ) (2023-03-06T08:05:08Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Sequence Learning Using Equilibrium Propagation [2.3361887733755897]
Equilibrium Propagation (EP) は、バックプロパゲーションのような従来の学習フレームワークに代わる、強力でより生物学的な代替手段である。
現代のホップフィールドネットワークにおける最近の発展を利用して、エネルギーベースモデルをさらに理解し、EPを用いた複雑なシーケンス分類タスクのためのソリューションを開発する。
論文 参考訳(メタデータ) (2022-09-14T20:01:22Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games [31.51588071503617]
ニューロシンボリック・コンカレントゲーム(NS-CSG)と呼ばれる新しいモデリング形式を提案する。
本稿では,ボレル状態空間を持つNS-CSGのクラスに着目し,ゼロサム割引累積報酬に対する値関数の存在と可測性を証明する。
我々は,この連続状態CSGの新たなサブクラスを解くために,実用的価値反復(VI)とポリシー反復(PI)アルゴリズムを初めて提示する。
論文 参考訳(メタデータ) (2022-02-13T08:39:00Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。