論文の概要: Approximate information state for approximate planning and reinforcement
learning in partially observed systems
- arxiv url: http://arxiv.org/abs/2010.08843v2
- Date: Fri, 3 Sep 2021 18:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:22:44.898776
- Title: Approximate information state for approximate planning and reinforcement
learning in partially observed systems
- Title(参考訳): 部分観測システムにおける近似計画と強化学習のための近似情報状態
- Authors: Jayakumar Subramanian, Amit Sinha, Raihan Seraj and Aditya Mahajan
- Abstract要約: 歴史の関数(AIS)が情報状態の性質をほぼ満足すると、対応する近似動的プログラムが存在することを示す。
文献における状態,観察,行動空間のいくつかの近似がAISの例であることを示す。
AISの健全な特徴は、データから学習できることである。
- 参考スコア(独自算出の注目度): 0.7646713951724009
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a theoretical framework for approximate planning and learning in
partially observed systems. Our framework is based on the fundamental notion of
information state. We provide two equivalent definitions of information state
-- i) a function of history which is sufficient to compute the expected reward
and predict its next value; ii) equivalently, a function of the history which
can be recursively updated and is sufficient to compute the expected reward and
predict the next observation. An information state always leads to a dynamic
programming decomposition. Our key result is to show that if a function of the
history (called approximate information state (AIS)) approximately satisfies
the properties of the information state, then there is a corresponding
approximate dynamic program. We show that the policy computed using this is
approximately optimal with bounded loss of optimality. We show that several
approximations in state, observation and action spaces in literature can be
viewed as instances of AIS. In some of these cases, we obtain tighter bounds. A
salient feature of AIS is that it can be learnt from data. We present AIS based
multi-time scale policy gradient algorithms. and detailed numerical experiments
with low, moderate and high dimensional environments.
- Abstract(参考訳): 部分観測システムにおける近似計画と学習のための理論的枠組みを提案する。
我々の枠組みは情報状態の基本概念に基づいている。
情報状態の2つの等価な定義を提供する --
一 期待される報酬を計算し、その次の価値を予測するのに十分である歴史の関数
二 再帰的に更新することができ、期待報酬を計算して次の観測を予測するのに十分である履歴の関数
情報状態は常に動的プログラミングの分解につながる。
我々の重要な結果は、履歴(近似情報状態(ais)と呼ばれる)の関数が情報状態の特性をほぼ満たしている場合、対応する近似動的プログラムが存在することを示すことである。
これを用いて計算したポリシは,最適性の有界損失に対してほぼ最適であることを示す。
文献における状態,観察,行動空間のいくつかの近似がAISの例であることを示す。
このような場合、より厳密な境界が得られる。
AISの健全な特徴は、データから学習できることである。
AISに基づくマルチタイムスケールポリシー勾配アルゴリズムを提案する。
低、中、高次元の環境での詳細な数値実験です
関連論文リスト
- State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Learning in POMDPs is Sample-Efficient with Hindsight Observability [36.66596305441365]
POMDPは、幅広い意思決定問題を捉えているが、難易度の結果は、学習が本質的に部分観測可能であるため、単純な設定でも難易度が高いことを示唆している。
多くの現実的な問題では、より多くの情報が明らかにされるか、学習プロセスのどこかの時点で計算できる。
我々は、学習者が学習中にのみ潜伏状態を明らかにするPOMDPとして設定(setshort)を定式化する。
論文 参考訳(メタデータ) (2023-01-31T18:54:36Z) - Approximate Information States for Worst-Case Control and Learning in Uncertain Systems [2.7282382992043885]
システムに作用する外乱が未知の分布を持つ有界集合の値を取る非確率モデルを考える。
本稿では,情報状態の概念と近似情報状態を用いて,そのような問題における意思決定のための一般的な枠組みを提案する。
数値例を用いた制御・強化学習における本研究の応用について述べる。
論文 参考訳(メタデータ) (2023-01-12T15:36:36Z) - Graph state-space models [19.88814714919019]
状態空間モデルは、時系列を記述し、予測されるシステム状態の更新された表現を維持することで操作する。
この原稿は、このギャップを初めて埋めることを目的としており、遅延依存をキャプチャする関数グラフがデータから直接学習され、時間とともに変更が許される、意図しない状態データとマッチングする。
ダウンストリームタスクで状態空間モデルのエンドツーエンドを学習するために,エンコーダ・デコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-01-04T18:15:07Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Tractable Reinforcement Learning of Signal Temporal Logic Objectives [0.0]
信号時相論理 (Signal temporal logic, STL) は、リアルタイムロボットタスクと安全仕様を指定するための表現言語である。
STL仕様を満たすための学習は、報酬と次のアクションを計算するのに十分な状態履歴を必要とすることが多い。
本稿では,新しい拡張状態空間表現において状態履歴をキャプチャするコンパクトな方法を提案する。
論文 参考訳(メタデータ) (2020-01-26T15:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。