論文の概要: PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2006.06352v2
- Date: Fri, 17 Jul 2020 19:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:53:42.809308
- Title: PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes
- Title(参考訳): 文脈マルコフ決定過程の模倣とモデルベースバッチ学習のためのPAC境界
- Authors: Yash Nair and Finale Doshi-Velez
- Abstract要約: 本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。
直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
- 参考スコア(独自算出の注目度): 31.83144400718369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of batch multi-task reinforcement learning with
observed context descriptors, motivated by its application to personalized
medical treatment. In particular, we study two general classes of learning
algorithms: direct policy learning (DPL), an imitation-learning based approach
which learns from expert trajectories, and model-based learning. First, we
derive sample complexity bounds for DPL, and then show that model-based
learning from expert actions can, even with a finite model class, be
impossible. After relaxing the conditions under which the model-based approach
is expected to learn by allowing for greater coverage of state-action space, we
provide sample complexity bounds for model-based learning with finite model
classes, showing that there exist model classes with sample complexity
exponential in their statistical complexity. We then derive a sample complexity
upper bound for model-based learning based on a measure of concentration of the
data distribution. Our results give formal justification for imitation learning
over model-based learning in this setting.
- Abstract(参考訳): 本稿では,観察された文脈記述子を用いたバッチ型マルチタスク強化学習の問題点について考察する。
特に、直接ポリシー学習(DPL)、専門家軌道から学習する模倣学習に基づくアプローチ、モデルベース学習の2つの一般的な学習アルゴリズムについて研究する。
まず、dplのサンプル複雑性境界を導出し、エキスパートアクションからモデルベースの学習は、有限のモデルクラスであっても不可能であることを示す。
状態-作用空間のカバレッジを高めることによってモデルベースアプローチが学習されるであろう条件を緩和した後、有限モデルクラスによるモデルベース学習のサンプル複雑性境界を提供し、その複雑性が指数関数的なモデルクラスが存在することを示した。
次に,データ分布の集中度を指標として,モデルベース学習のためのサンプル複雑性上限を導出する。
本研究は,モデルベース学習よりも模倣学習の形式的正当性を示す。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Finite-Time Error Analysis of Online Model-Based Q-Learning with a
Relaxed Sampling Model [6.663174194579773]
Q$-learningは、モデルなしの設定において強力なアルゴリズムであることが証明されている。
モデルベースのフレームワークへの$Q$-learningの拡張については、まだ明らかになっていない。
論文 参考訳(メタデータ) (2024-02-19T06:33:51Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Distribution-free Deviation Bounds and The Role of Domain Knowledge in Learning via Model Selection with Cross-validation Risk Estimation [0.0]
リスク推定とモデル選択のためのクロスバリデーション技術は、統計学や機械学習で広く利用されている。
本稿では,クロスバリデーションリスク推定を用いたモデル選択による学習を汎用的な学習フレームワークとして提案する。
論文 参考訳(メタデータ) (2023-03-15T17:18:31Z) - On the Sample Complexity of Vanilla Model-Based Offline Reinforcement
Learning with Dependent Samples [32.707730631343416]
オフライン強化学習(オフラインRL)は、以前に収集したサンプルのみを用いて学習を行う問題を考える。
モデルベースオフラインRLでは、学習者は経験的遷移に応じて構築されたモデルを用いて推定(または最適化)を行う。
本研究では,バニラモデルに基づくオフラインRLのサンプル複雑性を無限水平ディスカウント・リワード設定における依存サンプルを用いて解析する。
論文 参考訳(メタデータ) (2023-03-07T22:39:23Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - SAGE: Generating Symbolic Goals for Myopic Models in Deep Reinforcement
Learning [18.37286885057802]
従来使用できなかった不完全モデルのクラスを利用するための学習と計画を組み合わせたアルゴリズムを提案する。
これは、象徴的な計画とニューラルネットワークのアプローチの長所を、タクシーの世界とマインクラフトのバリエーションで競合する手法を上回る、新しい方法で組み合わせたものだ。
論文 参考訳(メタデータ) (2022-03-09T22:55:53Z) - Model Complexity of Deep Learning: A Survey [79.20117679251766]
深層学習におけるモデル複雑性に関する最新の研究を体系的に概観します。
本稿では,これら2つのカテゴリに関する既存研究について,モデルフレームワーク,モデルサイズ,最適化プロセス,データ複雑性の4つの重要な要因について概説する。
論文 参考訳(メタデータ) (2021-03-08T22:39:32Z) - Demystifying Deep Learning in Predictive Spatio-Temporal Analytics: An
Information-Theoretic Framework [20.28063653485698]
ディープラーニングモデル設計と情報理論解析のための包括的なフレームワークを提供する。
まず、インタラクティブに接続された新しいディープリカレントニューラルネットワーク(I$2$DRNN)モデルを開発し、実演する。
第二に、設計モデルがPSTAタスクのマルチスケール時間依存性を学習できることを理論的に証明するために、情報理論解析を提供する。
論文 参考訳(メタデータ) (2020-09-14T10:05:14Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。