論文の概要: A Theory of Learnability for Offline Decision Making
- arxiv url: http://arxiv.org/abs/2406.01378v1
- Date: Mon, 3 Jun 2024 14:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:39:57.311373
- Title: A Theory of Learnability for Offline Decision Making
- Title(参考訳): オフライン意思決定における学習可能性の理論
- Authors: Chenjie Mao, Qiaosheng Zhang,
- Abstract要約: 本稿では,学習目標に部分的に相関したデータセットから決定を学習することに焦点を当てたオフライン意思決定の問題について検討する。
オフラインフィードバックを用いた意思決定(Decision Making with Offline Feedback, DMOF)と呼ばれる統合フレームワークを導入する。
我々はまた、インスタンス依存上界とミニマックス上界の両方を確立する、EDD(Empirical Decision with Divergence)と呼ばれるアルゴリズムも導入した。
- 参考スコア(独自算出の注目度): 0.1227734309612871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of offline decision making, which focuses on learning decisions from datasets only partially correlated with the learning objective. While previous research has extensively studied specific offline decision making problems like offline reinforcement learning (RL) and off-policy evaluation (OPE), a unified framework and theory remain absent. To address this gap, we introduce a unified framework termed Decision Making with Offline Feedback (DMOF), which captures a wide range of offline decision making problems including offline RL, OPE, and offline partially observable Markov decision processes (POMDPs). For the DMOF framework, we introduce a hardness measure called the Offline Estimation Coefficient (OEC), which measures the learnability of offline decision making problems and is also reflected in the derived minimax lower bounds. Additionally, we introduce an algorithm called Empirical Decision with Divergence (EDD), for which we establish both an instance-dependent upper bound and a minimax upper bound. The minimax upper bound almost matches the lower bound determined by the OEC. Finally, we show that EDD achieves a fast convergence rate (i.e., a rate scaling as $1/N$, where $N$ is the sample size) for specific settings such as supervised learning and Markovian sequential problems~(e.g., MDPs) with partial coverage.
- Abstract(参考訳): 本稿では,学習目標に部分的に相関したデータセットから決定を学習することに焦点を当てたオフライン意思決定の課題について検討する。
従来の研究では、オフライン強化学習(RL)やオフ政治評価(OPE)といった特定のオフライン意思決定問題について広範囲に研究されてきたが、統一された枠組みと理論はいまだに存在しない。
このギャップに対処するために、オフラインRL、OPE、オフライン部分観測可能なマルコフ決定プロセス(POMDP)を含む幅広いオフライン意思決定問題をキャプチャする、DMOF(Decision Making with Offline Feedback)と呼ばれる統合フレームワークを導入する。
DMOF フレームワークでは,オフライン推定係数 (OEC) と呼ばれる,オフライン意思決定問題の学習可能性を測定し,導出したミニマックス下界にも反映する難易度尺度を導入する。
さらに、インスタンス依存上界とミニマックス上界の両方を確立するための、EDD(Empirical Decision with Divergence)アルゴリズムを導入する。
ミニマックス上界は、OECによって決定される下界とほぼ一致する。
最後に, 教師付き学習やマルコフ的逐次問題~(例えば, MDPs)などの特定の設定に対して, EDD が高速収束率(例えば, 1/N$ のスケーリングでサンプルサイズが$N$ となる)を達成することを示す。
関連論文リスト
- Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Beyond Non-Degeneracy: Revisiting Certainty Equivalent Heuristic for Online Linear Programming [18.371947752008744]
この結果から,不確実性等価性は分布の微妙な仮定の下で一様に近い最適後悔を達成できることが示唆された。
以上の結果から,CE は従来の信念とは対照的に,幅広い問題事例に対する退化の呪いを効果的に打ち負かしていると考えられる。
これらの手法は、より広範なオンライン意思決定コンテキストにおける潜在的な応用を見出すことができる。
論文 参考訳(メタデータ) (2025-01-03T09:21:27Z) - Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial
Attack [74.5144793386864]
LSDATは、入力サンプルのスパース成分と対向サンプルのスパース成分によって形成される低次元部分空間における摂動を加工する。
LSDは画像ピクセル領域で直接動作し、スパース性などの非$ell$制約が満たされることを保証します。
論文 参考訳(メタデータ) (2021-03-19T13:10:47Z) - Sequential- and Parallel- Constrained Max-value Entropy Search via
Information Lower Bound [9.09466320810472]
我々は、最大値エントロピー探索(MES)と呼ばれる情報理論のアプローチに焦点を当てる。
CMES-IBO(Constrained Max-value Entropy Search via Information lower BOund)と呼ばれる新しい制約BO法を提案する。
論文 参考訳(メタデータ) (2021-02-19T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。