論文の概要: An Optimal Tightness Bound for the Simulation Lemma
- arxiv url: http://arxiv.org/abs/2406.16249v1
- Date: Mon, 24 Jun 2024 01:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:22:56.131828
- Title: An Optimal Tightness Bound for the Simulation Lemma
- Title(参考訳): シミュレーションレムマのための最適高さ境界
- Authors: Sam Lobel, Ronald Parr,
- Abstract要約: 定数要素を含む厳密なモデル不特定性に対する値予測誤差の有界性を示す。
これは、強化学習の基本的な結果である「シミュレーション補題」の直接的な改善である。
- 参考スコア(独自算出の注目度): 2.1331883629523634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a bound for value-prediction error with respect to model misspecification that is tight, including constant factors. This is a direct improvement of the "simulation lemma," a foundational result in reinforcement learning. We demonstrate that existing bounds are quite loose, becoming vacuous for large discount factors, due to the suboptimal treatment of compounding probability errors. By carefully considering this quantity on its own, instead of as a subcomponent of value error, we derive a bound that is sub-linear with respect to transition function misspecification. We then demonstrate broader applicability of this technique, improving a similar bound in the related subfield of hierarchical abstraction.
- Abstract(参考訳): 定数要素を含む厳密なモデル不特定性に対する値予測誤差の有界性を示す。
これは、強化学習の基本的な結果である「シミュレーション補題」の直接的な改善である。
既存の境界は非常に緩く、混合確率誤差の最適下処理のため、大きな割引係数に対して空白となることを示した。
この量自体を慎重に考慮し、値誤差のサブコンポーネントとしてではなく、遷移関数の不特定性に関してサブ線形な境界を導出する。
次に、この手法のより広範な適用性を示し、階層的抽象化の関連部分フィールドにおける類似のバウンダリを改善した。
関連論文リスト
- Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Confidence Sets under Generalized Self-Concordance [2.0305676256390934]
本稿では,非漸近的理論の観点から,統計学の基本的問題を再考する。
非漸近的な方法でその挙動を特徴づける推定器の指数的バウンドを確立する。
その依存性の重要な痕跡は、有効次元によって捉えられる。
論文 参考訳(メタデータ) (2022-12-31T17:45:11Z) - Provably Efficient Model-Free Constrained RL with Linear Function
Approximation [4.060731229044571]
我々は,大規模システムにおいても,サブリニア後悔とサブリニア制約違反を実現するための,最初のモデルフリーシミュレータフリーアルゴリズムを開発した。
本結果は,標準LSVI-UCBアルゴリズムの新たな適応により達成される。
論文 参考訳(メタデータ) (2022-06-23T17:54:31Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Efficient Marginalization of Discrete and Structured Latent Variables
via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。
典型的には、真の限界のサンプリングに基づく近似に頼っている。
そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-03T19:36:35Z) - Lipschitz Bounds and Provably Robust Training by Laplacian Smoothing [7.4769019455423855]
リプシッツ制約による損失最小化の1つとして、逆向きに頑健な学習問題を定式化する。
関連するラグランジアンのサドル点は、重み付きラプラス作用素を持つポアソン方程式によって特徴づけられることを示す。
グラフに基づく入力空間の離散化と、ラグランジアンサドル点に収束する原始双対アルゴリズムを用いて、証明可能なロバストなトレーニングスキームを設計する。
論文 参考訳(メタデータ) (2020-06-05T22:02:21Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。