論文の概要: Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond
- arxiv url: http://arxiv.org/abs/2209.11745v4
- Date: Sun, 22 Dec 2024 03:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:55.060605
- Title: Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond
- Title(参考訳): PAC, Reward-free, Preference-based Learning など, 決定推定係数を持つRLの統一アルゴリズム
- Authors: Fan Chen, Song Mei, Yu Bai,
- Abstract要約: 我々は,大規模な学習目標のための統一的なアルゴリズムフレームワークを開発する。
我々のフレームワークは、非回帰RL、PAC RL、報酬なし学習、モデル推定、嗜好に基づく学習など、多くの学習目標を処理する。
応用として、一般化されたDECを有界化するための自然な十分条件として「分解可能表現」を提案する。
- 参考スコア(独自算出の注目度): 28.118197762236953
- License:
- Abstract: Modern Reinforcement Learning (RL) is more than just learning the optimal policy; Alternative learning goals such as exploring the environment, estimating the underlying model, and learning from preference feedback are all of practical importance. While provably sample-efficient algorithms for each specific goal have been proposed, these algorithms often depend strongly on the particular learning goal and thus admit different structures correspondingly. It is an urging open question whether these learning goals can rather be tackled by a single unified algorithm. We make progress on this question by developing a unified algorithm framework for a large class of learning goals, building on the Decision-Estimation Coefficient (DEC) framework. Our framework handles many learning goals such as no-regret RL, PAC RL, reward-free learning, model estimation, and preference-based learning, all by simply instantiating the same generic complexity measure called "Generalized DEC", and a corresponding generic algorithm. The generalized DEC also yields a sample complexity lower bound for each specific learning goal. As applications, we propose "decouplable representation" as a natural sufficient condition for bounding generalized DECs, and use it to obtain many new sample-efficient results (and recover existing results) for a wide range of learning goals and problem classes as direct corollaries. Finally, as a connection, we re-analyze two existing optimistic model-based algorithms based on Posterior Sampling and Maximum Likelihood Estimation, showing that they enjoy sample complexity bounds under similar structural conditions as the DEC.
- Abstract(参考訳): 現代の強化学習(RL)は、単に最適な政策を学ぶこと以上のもので、環境探索、基礎となるモデルの推定、選好フィードバックからの学習といった、代替的な学習目標がすべて実践的に重要である。
特定の目標ごとに確実にサンプル効率のアルゴリズムが提案されているが、これらのアルゴリズムは特定の学習目標に強く依存し、異なる構造を許容することが多い。
これらの学習目標が、単一の統一アルゴリズムによって取り組めばよいのか、という疑問が浮き彫りになっている。
我々は,DEC(Decision-Estimation Coefficient)フレームワークを基盤として,大規模な学習目標を対象とした統一的なアルゴリズムフレームワークを開発することにより,この問題を進展させる。
我々のフレームワークは、非回帰RL、PAC RL、報酬なし学習、モデル推定、嗜好に基づく学習など、多くの学習目標を処理する。
一般化されたDECはまた、個々の学習目標に対して、サンプルの複雑さを低くする。
応用として、一般化されたDECを有界化するための自然な条件として「分解可能表現」を提案し、それを用いて、幅広い学習目標と問題クラスを直列化するための多くのサンプル効率の高い結果(および既存の結果の復元)を得る。
最後に,2つの既存楽観的モデルベースアルゴリズムを後方サンプリングと最大類似度推定に基づいて再解析し,DECと似た構造条件下でのサンプル複雑性境界を楽しむことを示す。
関連論文リスト
- Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - Proof of Swarm Based Ensemble Learning for Federated Learning
Applications [3.2536767864585663]
連合学習では、プライバシー上の懸念から、集中型アンサンブル学習を直接適用することは不可能である。
ビザンティンフォールトトレランス(BFT)のようなほとんどの分散コンセンサスアルゴリズムは、通常そのようなアプリケーションではうまく機能しない。
フェデレートされた環境でのアンサンブル学習のための分散コンセンサスアルゴリズムPoSwを提案する。
論文 参考訳(メタデータ) (2022-12-28T13:53:34Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Finding the Homology of Decision Boundaries with Active Learning [26.31885403636642]
本稿では,意思決定境界のホモロジーを回復するための能動的学習アルゴリズムを提案する。
我々のアルゴリズムは、ラベルを必要とするサンプルを逐次かつ適応的に選択する。
いくつかのデータセットの実験では、ホモロジーを回復する際のサンプルの複雑さの改善が示されている。
論文 参考訳(メタデータ) (2020-11-19T04:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。