論文の概要: A Fast Convergence Theory for Offline Decision Making
- arxiv url: http://arxiv.org/abs/2406.01378v2
- Date: Tue, 03 Dec 2024 18:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:49.551636
- Title: A Fast Convergence Theory for Offline Decision Making
- Title(参考訳): オフライン意思決定のための高速収束理論
- Authors: Chenjie Mao, Qiaosheng Zhang,
- Abstract要約: 本稿では、オフライン決定問題に対する一般関数近似における最初の一般化高速収束結果を提案する。
異なる設定を統一するために,オフラインフィードバックを用いた意思決定(Decision Making with Offline Feedback, DMOF)というフレームワークを導入する。
本枠組みでは,経験的オフライン推定係数 (EOEC) という上限を係数として表すことのできる,経験的意思決定(EDD)と呼ばれる単純かつ強力なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.1227734309612871
- License:
- Abstract: This paper proposes the first generic fast convergence result in general function approximation for offline decision making problems, which include offline reinforcement learning (RL) and off-policy evaluation (OPE) as special cases. To unify different settings, we introduce a framework called Decision Making with Offline Feedback (DMOF), which captures a wide range of offline decision making problems. Within this framework, we propose a simple yet powerful algorithm called Empirical Decision with Divergence (EDD), whose upper bound can be termed as a coefficient named Empirical Offline Estimation Coefficient (EOEC). We show that EOEC is instance-dependent and actually measures the correlation of the problem. When assuming partial coverage in the dataset, EOEC will reduce in a rate of $1/N$ where $N$ is the size of the dataset, endowing EDD with a fast convergence guarantee. Finally, we complement the above results with a lower bound in the DMOF framework, which further demonstrates the soundness of our theory.
- Abstract(参考訳): 本稿では、オフライン強化学習(RL)やオフ政治評価(OPE)などを含む、オフライン意思決定問題に対する一般関数近似における最初の一般化高速収束結果を提案する。
異なる設定を統一するために,オフラインフィードバックを用いた意思決定(Decision Making with Offline Feedback, DMOF)というフレームワークを導入する。
本枠組みでは,経験的オフライン推定係数 (EOEC) という上限を係数として表すことのできる,経験的意思決定(EDD)と呼ばれる単純なアルゴリズムを提案する。
EOECはインスタンス依存であり、実際に問題の相関を測っている。
データセットの部分カバレッジを仮定すると、EOECはデータセットのサイズが$N$である場合の1/N$のレートを削減し、高速収束保証を備えたEDDを提供する。
最後に、上記の結果をDMOFフレームワークの下位境界で補足し、この理論の健全性をさらに証明する。
関連論文リスト
- Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Beyond Non-Degeneracy: Revisiting Certainty Equivalent Heuristic for Online Linear Programming [18.371947752008744]
この結果から,不確実性等価性は分布の微妙な仮定の下で一様に近い最適後悔を達成できることが示唆された。
以上の結果から,CE は従来の信念とは対照的に,幅広い問題事例に対する退化の呪いを効果的に打ち負かしていると考えられる。
これらの手法は、より広範なオンライン意思決定コンテキストにおける潜在的な応用を見出すことができる。
論文 参考訳(メタデータ) (2025-01-03T09:21:27Z) - Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial
Attack [74.5144793386864]
LSDATは、入力サンプルのスパース成分と対向サンプルのスパース成分によって形成される低次元部分空間における摂動を加工する。
LSDは画像ピクセル領域で直接動作し、スパース性などの非$ell$制約が満たされることを保証します。
論文 参考訳(メタデータ) (2021-03-19T13:10:47Z) - Sequential- and Parallel- Constrained Max-value Entropy Search via
Information Lower Bound [9.09466320810472]
我々は、最大値エントロピー探索(MES)と呼ばれる情報理論のアプローチに焦点を当てる。
CMES-IBO(Constrained Max-value Entropy Search via Information lower BOund)と呼ばれる新しい制約BO法を提案する。
論文 参考訳(メタデータ) (2021-02-19T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。