Fugu-MT 論文翻訳(概要): GenDICE: Generalized Offline Estimation of Stationary Values

論文の概要: GenDICE: Generalized Offline Estimation of Stationary Values

arxiv url: http://arxiv.org/abs/2002.09072v1
Date: Fri, 21 Feb 2020 00:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 00:34:38.615722
Title: GenDICE: Generalized Offline Estimation of Stationary Values
Title（参考訳）: GenDICE: 定常値の一般化オフライン推定
Authors: Ruiyi Zhang, Bo Dai, Lihong Li, Dale Schuurmans
Abstract要約: 重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
参考スコア（独自算出の注目度）: 108.17309783125398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An important problem that arises in reinforcement learning and Monte Carlo methods is estimating quantities defined by the stationary distribution of a Markov chain. In many real-world applications, access to the underlying transition operator is limited to a fixed set of data that has already been collected, without additional interaction with the environment being available. We show that consistent estimation remains possible in this challenging scenario, and that effective estimation can still be achieved in important applications. Our approach is based on estimating a ratio that corrects for the discrepancy between the stationary and empirical distributions, derived from fundamental properties of the stationary distribution, and exploiting constraint reformulations based on variational divergence minimization. The resulting algorithm, GenDICE, is straightforward and effective. We prove its consistency under general conditions, provide an error analysis, and demonstrate strong empirical performance on benchmark problems, including off-line PageRank and off-policy policy evaluation.
Abstract（参考訳）: 強化学習やモンテカルロ法で生じる重要な問題は、マルコフ連鎖の定常分布によって定義される量を推定することである。多くの現実世界のアプリケーションでは、基盤となるトランジッション演算子へのアクセスは、利用可能な環境との追加的なインタラクションなしに、すでに収集された固定されたデータセットに限定されている。この難易度シナリオでは一貫した推定が可能であり,重要な応用においても効果的な推定が可能となることを示す。提案手法は, 定常分布と経験分布の相違を補正する比率を推定し, 定常分布の基本的な性質から推定し, 変動分散最小化に基づく制約修正を利用する。結果として得られるアルゴリズム、GenDICEは単純で効果的である。一般的な条件下での整合性を証明し、エラー解析を行い、オフラインのPageRankや非政治政策評価を含むベンチマーク問題に対して強い経験的性能を示す。

関連論文リスト

Statistical Inference for Conditional Group Distributionally Robust Optimization with Cross-Entropy Loss [9.054486124506521]
本研究では,複数のソースドメインからラベル付きデータを抽出し,対象ドメインからラベル付きデータのみを抽出するマルチソース非教師付きドメイン適応について検討する。本稿では,条件条件分布の凸結合に対する最悪のクロスエントロピー損失を最小限に抑え,分類器を学習する新しい条件条件最適化(CG-DRO)フレームワークを提案する。理論的ブリッジとして機能する2つのサロゲート極小最適化問題を構築することにより、推定器の高速な統計的収束率を確立する。
論文参考訳（メタデータ） (2025-07-14T04:21:23Z)
CLUE: Neural Networks Calibration via Learning Uncertainty-Error alignment [7.702016079410588]
CLUE(Calibration via Learning Uncertainty-Error Alignment)は,学習中の予測不確かさを観測誤差と整合させる新しい手法である。 CLUEは,最先端のアプローチに対して,キャリブレーション品質と競争予測性能に優れることを示す。
論文参考訳（メタデータ） (2025-05-28T19:23:47Z)
A Distributionally-Robust Framework for Nuisance in Causal Effect Estimation [1.3053649021965603]
因果推論では、治療群と対照群の間のバランスの取れた分布のモデルを評価する必要がある。最も一般的な統計手法は、逆確率重み付け(IPW)によるこの分布シフトに対処するものである。誤差一般化を分解してこれらの問題 - 正当性あいまいさと統計的不安定さ - を分離し, 対向損失関数を通して対処する。
論文参考訳（メタデータ） (2025-05-23T10:34:28Z)
Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文参考訳（メタデータ） (2025-02-22T19:54:14Z)
COD: Learning Conditional Invariant Representation for Domain Adaptation Regression [20.676363400841495]
ドメイン適応回帰(Domain Adaptation Regression)は、ソースドメインからラベルのないターゲットドメインへのラベルの知識を一般化するために開発された。既存の条件分布アライメント理論と離散前処理法はもはや適用できない。誤差を最小限に抑えるために,CODに基づく条件付き不変表現学習モデルを提案する。
論文参考訳（メタデータ） (2024-08-13T05:08:13Z)
Optimal Aggregation of Prediction Intervals under Unsupervised Domain Shift [9.387706860375461]
分散シフトは、基礎となるデータ生成プロセスが変化したときに発生し、モデルの性能のずれにつながる。予測間隔は、その基礎となる分布によって引き起こされる不確実性を特徴づける重要なツールとして機能する。予測区間を集約し,最小の幅と対象領域を適切にカバーする手法を提案する。
論文参考訳（メタデータ） (2024-05-16T17:55:42Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文参考訳（メタデータ） (2023-09-23T06:35:44Z)
A Tale of Sampling and Estimation in Discounted Reinforcement Learning [50.43256303670011]
割引平均推定問題に対して最小値の最小値を求める。マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
論文参考訳（メタデータ） (2023-04-11T09:13:17Z)
Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文参考訳（メタデータ） (2021-07-05T21:05:11Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文参考訳（メタデータ） (2020-03-02T09:10:01Z)
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。我々は、ある政策の境界を推定するアプローチを開発する。より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文参考訳（メタデータ） (2020-02-11T16:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。