論文の概要: On the Uniqueness of Solution for the Bellman Equation of LTL Objectives
- arxiv url: http://arxiv.org/abs/2404.05074v1
- Date: Sun, 7 Apr 2024 21:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:02:57.620229
- Title: On the Uniqueness of Solution for the Bellman Equation of LTL Objectives
- Title(参考訳): LTL対象ベルマン方程式の解の特異性について
- Authors: Zetong Xuan, Alper Kamil Bozkurt, Miroslav Pajic, Yu Wang,
- Abstract要約: 2つの割引係数を持つベルマン方程式の解の特異性は明らかに議論されていない。
次に、ベルマン方程式が一意解として期待される戻り値を持つ条件を提案する。
- 参考スコア(独自算出の注目度): 12.918524838804016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surrogate rewards for linear temporal logic (LTL) objectives are commonly utilized in planning problems for LTL objectives. In a widely-adopted surrogate reward approach, two discount factors are used to ensure that the expected return approximates the satisfaction probability of the LTL objective. The expected return then can be estimated by methods using the Bellman updates such as reinforcement learning. However, the uniqueness of the solution to the Bellman equation with two discount factors has not been explicitly discussed. We demonstrate with an example that when one of the discount factors is set to one, as allowed in many previous works, the Bellman equation may have multiple solutions, leading to inaccurate evaluation of the expected return. We then propose a condition for the Bellman equation to have the expected return as the unique solution, requiring the solutions for states inside a rejecting bottom strongly connected component (BSCC) to be 0. We prove this condition is sufficient by showing that the solutions for the states with discounting can be separated from those for the states without discounting under this condition
- Abstract(参考訳): 線形時間論理(LTL)の目的に対するサロゲート報酬は、LTLの目的のための計画問題に一般的に利用される。
広く採用されているサロゲート報酬アプローチでは、2つの割引係数を用いて、期待されたリターンがLTL目標の満足度確率を近似することを保証する。
予測リターンは、強化学習などのBellman更新を使って推定することができる。
しかし、2つの割引係数を持つベルマン方程式の解の特異性は明確に議論されていない。
例えば、割引係数の1つを1つに設定すると、ベルマン方程式は複数の解を持ち、予想されるリターンを不正確な評価に繋がることを示した。
次に、ベルマン方程式が一意解として期待される戻り値を持つ条件を提案し、拒絶するボトム連結成分 (BSCC) 内の状態に対する解を 0 とする。
この条件下では、割引対象州と割引対象州とを分離できることを示すことで、この条件が十分であることを示す。
関連論文リスト
- Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning [1.5734309088976395]
本研究ではベルマン方程式の反復探索によるベルマン近似誤差の分布について検討した。
本稿では,ベルマン誤差の正規分布を仮定する平均二乗誤差(MSELoss)の代替として,ロジスティック最大度関数(LLoss)の利用を提案する。
論文 参考訳(メタデータ) (2023-07-05T15:00:29Z) - LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning [30.4251858001151]
暗黙の報酬関数の2乗ノルム正規化は有効であるが、アルゴリズムの結果の性質に関する理論的解析は提供されない。
我々の手法であるLast Squares Inverse Q-Learningは、特に吸収状態の環境において、最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-01T15:46:12Z) - Minimax Instrumental Variable Regression and $L_2$ Convergence
Guarantees without Identification or Closedness [71.42652863687117]
インストゥルメンタル変数(IV)回帰の非パラメトリック推定について検討した。
固定IV解に収束できる新しいペナル化ミニマックス推定器を提案する。
ラックス条件下での推定値に対して強い$L$誤差率を導出する。
論文 参考訳(メタデータ) (2023-02-10T18:08:49Z) - Reinforcement Learning with Non-Exponential Discounting [28.092095671829508]
本稿では,任意の割引関数に一般化した連続時間モデルに基づく強化学習の理論を提案する。
提案手法は, 逐次意思決定タスクにおける人的割引の分析方法を開くものである。
論文 参考訳(メタデータ) (2022-09-27T14:13:16Z) - On solutions of the distributional Bellman equation [0.0]
一般分布ベルマン方程式とそれらの解の存在と特異性、および戻り分布のテール特性について考察する。
分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:36:59Z) - Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement
for Value Error [83.10489974736404]
本研究では,ベルマン方程式を値予測精度の代用目的として用いることを検討した。
ベルマン誤差は値関数の精度の指標として不十分であることがわかった。
論文 参考訳(メタデータ) (2022-01-28T21:03:59Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Necessary and Sufficient Conditions for Inverse Reinforcement Learning
of Bayesian Stopping Time Problems [22.498689292081156]
本稿では,ベイジアン停止時間問題に対する逆強化学習(IRL)フレームワークを提案する。
ベイズ決定器の動作を観察することにより、これらの動作がコスト関数の最適化と一致しているかどうかを識別するのに必要かつ十分な条件を提供する。
我々のIRLアルゴリズムは最適性を同定し、コスト関数の値が設定された推定値を構成する。
論文 参考訳(メタデータ) (2020-07-07T14:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。