Fugu-MT 論文翻訳(概要): An Optimal Tightness Bound for the Simulation Lemma

論文の概要: An Optimal Tightness Bound for the Simulation Lemma

arxiv url: http://arxiv.org/abs/2406.16249v2
Date: Fri, 25 Oct 2024 14:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.041742
Title: An Optimal Tightness Bound for the Simulation Lemma
Title（参考訳）: シミュレーションレムマのための最適高さ境界
Authors: Sam Lobel, Ronald Parr,
Abstract要約: 定数要素を含む厳密なモデル不特定性に対する値予測誤差の有界性を示す。これは、強化学習の基本的な結果である「シミュレーション補題」の直接的な改善である。
参考スコア（独自算出の注目度）: 2.1331883629523634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a bound for value-prediction error with respect to model misspecification that is tight, including constant factors. This is a direct improvement of the "simulation lemma," a foundational result in reinforcement learning. We demonstrate that existing bounds are quite loose, becoming vacuous for large discount factors, due to the suboptimal treatment of compounding probability errors. By carefully considering this quantity on its own, instead of as a subcomponent of value error, we derive a bound that is sub-linear with respect to transition function misspecification. We then demonstrate broader applicability of this technique, improving a similar bound in the related subfield of hierarchical abstraction.
Abstract（参考訳）: 定数要素を含む厳密なモデル不特定性に対する値予測誤差の有界性を示す。これは、強化学習の基本的な結果である「シミュレーション補題」の直接的な改善である。既存の境界は非常に緩く、混合確率誤差の最適下処理のため、大きな割引係数に対して空白となることを示した。この量自体を慎重に考慮し、値誤差のサブコンポーネントとしてではなく、遷移関数の不特定性に関してサブ線形な境界を導出する。次に、この手法のより広範な適用性を示し、階層的抽象化の関連部分フィールドにおける類似のバウンダリを改善した。

関連論文リスト

Constraint-Guided Prediction Refinement via Deterministic Diffusion Trajectories [7.279433512595361]
本稿では,拡散拡散DDIMを誘導する制約認識のための汎用フレームワークを提案する。本手法は,事前学習による拡散軌道を反復的に改良し,制約補正により拡張する。
論文参考訳（メタデータ） (2025-06-15T17:02:07Z)
Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD [21.92418810749819]
逆相関行列上にバンド構造を付加した新しい明示的因数分解法,Banded Inverse Square Root (BISR) を導入する。 BISRは、上界と下界をマッチングすることで、アナル最適誤差を達成する。
論文参考訳（メタデータ） (2025-05-17T19:41:44Z)
Optimal Complexity in Byzantine-Robust Distributed Stochastic Optimization with Data Heterogeneity [37.14123597310607]
本稿では,Byzantine-robust分散一階最適化手法の厳密な下限を確立する。このギャップを埋めるために、Nesterovの高速化手法を活用して、新しいビザンチン・ロバスト分散最適化法を開発した。
論文参考訳（メタデータ） (2025-03-20T16:56:06Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Efficient Transfer Learning via Causal Bounds [8.981637739384674]
我々は、因果側情報がどのようにオンライン学習を加速するかを分析し、データ削減の実験を行う。我々の分析は、因果側情報がどのようにオンライン学習を加速させるか、およびデータ削減の実験を正確に特徴付ける。
論文参考訳（メタデータ） (2023-08-07T13:24:50Z)
High-Probability Bounds for Stochastic Optimization and Variational Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文参考訳（メタデータ） (2023-02-02T10:37:23Z)
Kernel-based off-policy estimation without overlap: Instance optimality beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文参考訳（メタデータ） (2023-01-16T02:57:37Z)
Confidence Sets under Generalized Self-Concordance [2.0305676256390934]
本稿では,非漸近的理論の観点から,統計学の基本的問題を再考する。非漸近的な方法でその挙動を特徴づける推定器の指数的バウンドを確立する。その依存性の重要な痕跡は、有効次元によって捉えられる。
論文参考訳（メタデータ） (2022-12-31T17:45:11Z)
Provably Efficient Model-Free Constrained RL with Linear Function Approximation [4.060731229044571]
我々は,大規模システムにおいても,サブリニア後悔とサブリニア制約違反を実現するための,最初のモデルフリーシミュレータフリーアルゴリズムを開発した。本結果は,標準LSVI-UCBアルゴリズムの新たな適応により達成される。
論文参考訳（メタデータ） (2022-06-23T17:54:31Z)
Matrix Completion via Non-Convex Relaxation and Adaptive Correlation Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文参考訳（メタデータ） (2022-03-04T08:50:50Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
Deconfounding Scores: Feature Representations for Causal Effect Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。特に,この手法が標準正規化の魅力的な代替となることを示す。
論文参考訳（メタデータ） (2021-04-12T18:50:11Z)
Efficient Marginalization of Discrete and Structured Latent Variables via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。典型的には、真の限界のサンプリングに基づく近似に頼っている。そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-07-03T19:36:35Z)
Lipschitz Bounds and Provably Robust Training by Laplacian Smoothing [7.4769019455423855]
リプシッツ制約による損失最小化の1つとして、逆向きに頑健な学習問題を定式化する。関連するラグランジアンのサドル点は、重み付きラプラス作用素を持つポアソン方程式によって特徴づけられることを示す。グラフに基づく入力空間の離散化と、ラグランジアンサドル点に収束する原始双対アルゴリズムを用いて、証明可能なロバストなトレーニングスキームを設計する。
論文参考訳（メタデータ） (2020-06-05T22:02:21Z)
On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文参考訳（メタデータ） (2019-04-18T02:56:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。