論文の概要: A Theory of Learnability for Offline Decision Making
- arxiv url: http://arxiv.org/abs/2406.01378v1
- Date: Mon, 3 Jun 2024 14:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:39:57.311373
- Title: A Theory of Learnability for Offline Decision Making
- Title(参考訳): オフライン意思決定における学習可能性の理論
- Authors: Chenjie Mao, Qiaosheng Zhang,
- Abstract要約: 本稿では,学習目標に部分的に相関したデータセットから決定を学習することに焦点を当てたオフライン意思決定の問題について検討する。
オフラインフィードバックを用いた意思決定(Decision Making with Offline Feedback, DMOF)と呼ばれる統合フレームワークを導入する。
我々はまた、インスタンス依存上界とミニマックス上界の両方を確立する、EDD(Empirical Decision with Divergence)と呼ばれるアルゴリズムも導入した。
- 参考スコア(独自算出の注目度): 0.1227734309612871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of offline decision making, which focuses on learning decisions from datasets only partially correlated with the learning objective. While previous research has extensively studied specific offline decision making problems like offline reinforcement learning (RL) and off-policy evaluation (OPE), a unified framework and theory remain absent. To address this gap, we introduce a unified framework termed Decision Making with Offline Feedback (DMOF), which captures a wide range of offline decision making problems including offline RL, OPE, and offline partially observable Markov decision processes (POMDPs). For the DMOF framework, we introduce a hardness measure called the Offline Estimation Coefficient (OEC), which measures the learnability of offline decision making problems and is also reflected in the derived minimax lower bounds. Additionally, we introduce an algorithm called Empirical Decision with Divergence (EDD), for which we establish both an instance-dependent upper bound and a minimax upper bound. The minimax upper bound almost matches the lower bound determined by the OEC. Finally, we show that EDD achieves a fast convergence rate (i.e., a rate scaling as $1/N$, where $N$ is the sample size) for specific settings such as supervised learning and Markovian sequential problems~(e.g., MDPs) with partial coverage.
- Abstract(参考訳): 本稿では,学習目標に部分的に相関したデータセットから決定を学習することに焦点を当てたオフライン意思決定の課題について検討する。
従来の研究では、オフライン強化学習(RL)やオフ政治評価(OPE)といった特定のオフライン意思決定問題について広範囲に研究されてきたが、統一された枠組みと理論はいまだに存在しない。
このギャップに対処するために、オフラインRL、OPE、オフライン部分観測可能なマルコフ決定プロセス(POMDP)を含む幅広いオフライン意思決定問題をキャプチャする、DMOF(Decision Making with Offline Feedback)と呼ばれる統合フレームワークを導入する。
DMOF フレームワークでは,オフライン推定係数 (OEC) と呼ばれる,オフライン意思決定問題の学習可能性を測定し,導出したミニマックス下界にも反映する難易度尺度を導入する。
さらに、インスタンス依存上界とミニマックス上界の両方を確立するための、EDD(Empirical Decision with Divergence)アルゴリズムを導入する。
ミニマックス上界は、OECによって決定される下界とほぼ一致する。
最後に, 教師付き学習やマルコフ的逐次問題~(例えば, MDPs)などの特定の設定に対して, EDD が高速収束率(例えば, 1/N$ のスケーリングでサンプルサイズが$N$ となる)を達成することを示す。
関連論文リスト
- Is Offline Decision Making Possible with Only Few Samples? Reliable
Decisions in Data-Starved Bandits via Trust Region Enhancement [25.68354404229254]
データスターブされた設定であっても、最適な設定と競合するポリシーを見つけることが可能であることを示す。
これは、少数のサンプルにのみ依存することで重要な決定をしなければならない設定において、信頼性の高い意思決定への道を開くものだ。
論文 参考訳(メタデータ) (2024-02-24T03:41:09Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - A new interpretable unsupervised anomaly detection method based on
residual explanation [47.187609203210705]
本稿では,大規模システムにおけるAEベースのADの制限に対処する新しい解釈可能性手法であるRXPを提案する。
実装の単純さ、計算コストの低さ、決定論的振る舞いが特徴である。
実鉄道路線のデータを用いた実験において,提案手法はSHAPよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-14T15:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。