論文の概要: Convex duality for stochastic shortest path problems in known and
unknown environments
- arxiv url: http://arxiv.org/abs/2208.00330v1
- Date: Sun, 31 Jul 2022 01:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:45:02.168393
- Title: Convex duality for stochastic shortest path problems in known and
unknown environments
- Title(参考訳): 未知環境における確率的最短経路問題に対する凸双対性
- Authors: Kelli Francis-Staite
- Abstract要約: 本稿では,未知環境における最短経路問題(SSP)について紹介する。
まず、既知のパラメータのケースで結果をリコールし、異なる証明を通して理解を深める。
その後、未知のパラメーターケースに焦点を当て、拡張値反復(EVI)演算子を研究する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper gives an introduction to Stochastic Shortest Path (SSP) problems
in known and unknown environments from the perspective of convex optimisation.
It first recalls results in the known parameter case, and develops
understanding through different proofs. It then focuses on the unknown
parameter case, where it studies extended value iteration (EVI) operators. This
includes the existing operators used in Rosenberg et al. [26] and Tarbouriech
et al. [31] based on the l-1 norm and supremum norm, as well as defining EVI
operators corresponding to other norms and divergences, such as the
KL-divergence. This paper shows in general how the EVI operators relate to
convex programs, and the form of their dual, where strong duality is exhibited.
This paper then focuses on whether the bounds from finite horizon research of
Neu and Pike-Burke [21] can be applied to these extended value iteration
operators in the SSP setting. It shows that similar bounds to [21] for these
operators exist, however they lead to operators that are not in general
monotone and have more complex convergence properties. In a special case we
observe oscillating behaviour. This paper generates open questions on how
research may progress, with several examples that require further examination.
- Abstract(参考訳): 本稿では,凸最適化の観点から,未知環境における確率的最短経路(SSP)問題について紹介する。
まず、既知のパラメータケースで結果を思い出し、異なる証明を通して理解を深める。
次に、拡張値反復(evi)演算子を研究する未知のパラメータケースに焦点を当てる。
これにはローゼンバーグ等で使われている既存の演算子も含まれる。
[26]およびTarbouriech et al。
[31] は l-1 ノルムと supremum ノルムに基づいており、KL-発散のような他のノルムや発散に対応する EVI 作用素を定義する。
本稿では、一般に、EVI演算子が凸プログラムとどのように関連しているか、および強い双対性を示す双対の形式を示す。
そこで本稿では,neu および pike-burke [21] の有限ホライズン研究における境界が,ssp 設定におけるこれらの拡張値反復演算子に適用できるかどうかについて考察する。
これらの作用素に対する [21] と似た境界が存在することが示されているが、一般に単調ではなくより複雑な収束特性を持つ作用素に繋がる。
特別な場合、振動する挙動を観察する。
本稿では,研究の進展に関するオープンな疑問と,さらなる検討を要するいくつかの事例を提示する。
関連論文リスト
- Local-Data-Hiding and Causal Inseparability: Probing Indefinite Causal Structures with Cryptographic Primitives [0.0]
近年の研究では、新しい情報プリミティブとして現れる因果構造における不確定性の可能性が示唆されている。
本研究では,不定因果構造に埋め込まれたエージェントが,特定の因果的背景下で動作しているエージェントよりも優れていることを示す。
本稿では、LBHタスクにそれぞれ役に立たない2つの量子プロセスが一緒に使われる際に有用となる、興味深いスーパーアクティベーション現象を報告する。
論文 参考訳(メタデータ) (2024-07-30T04:54:03Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Convergence of the Chambolle-Pock Algorithm in the Absence of Monotonicity [4.307128674848627]
Chambolle-Pockアルゴリズム(CPA)は、大規模な凸構造問題の解法の成功により、過去10年間で人気を博している。
この研究は、関連する原始双対作用素上のいわゆる弱ミント条件によって定量化される、(非)単調性の異なる問題に対する収束解析を拡張した。
論文 参考訳(メタデータ) (2023-12-11T17:20:24Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Out-of-distributional risk bounds for neural operators with applications
to the Helmholtz equation [6.296104145657063]
既存のニューラル演算子(NO)は、全ての物理問題に対して必ずしもうまく機能しない。
非線形作用素の波動速度を解にマッピングする実験的な近似を可能にするNOのサブファミリーを提案する。
本実験は, 深度導入の一般化と関連性において, ある種のサプライズを明らかにするものである。
我々は、NOsのサブファミリーのハイパーネットワークバージョンを、前述のフォワード演算子のサロゲートモデルとして提案することで結論付ける。
論文 参考訳(メタデータ) (2023-01-27T03:02:12Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Self-adjoint extension schemes and modern applications to quantum
Hamiltonians [55.2480439325792]
モノグラフは、過去数年間、両方の著者が、抽象演算子理論と量子力学への応用の両方において中心的な主題について行った、学部・大学院・セミナーの以前の講義ノートから、改訂および拡張された資料を含んでいる。
数種類のモデルが議論され、これは今日、数学物理学への新たな関心または新たな関心を受けており、特に、ある興味を持つ作用素を自己随伴的に実現するという観点から考察されている。
論文 参考訳(メタデータ) (2022-01-25T09:45:16Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - Relevant OTOC operators: footprints of the classical dynamics [68.8204255655161]
OTOC-RE定理(OTOC-RE theorem)は、作用素の完備な基底にまとめられたOTOCを第二レニイエントロピー(Renyi entropy)に関連付ける定理である。
関係作用素の小さな集合に対する和は、エントロピーの非常によい近似を得るのに十分であることを示す。
逆に、これは複雑性の別の自然な指標、すなわち時間と関連する演算子の数のスケーリングを提供する。
論文 参考訳(メタデータ) (2020-07-31T19:23:26Z) - A Generalized Nachtmann Theorem in CFT [0.0]
ユニタリ量子場理論の相関子は、ある解析性と正の性質に従う。
2次元以上のユニタリ CFT の相互作用について、これらの性質が極小ツイスト作用素の族に一般の制約を与えることを示す。
論文 参考訳(メタデータ) (2020-02-27T19:05:44Z) - On operator growth and emergent Poincar\'e symmetries [0.0]
有限温度での一般大Nゲージ理論に対する作用素成長を考察する。
これらのモードの代数は、初期作用素が時間とともに混合する作用素の簡単な解析を可能にする。
これらのアプローチはすべて、ゲルファント・ナイマルク・セガル(GNS)の構成の観点から自然な定式化を持つことを示す。
論文 参考訳(メタデータ) (2020-02-10T15:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。