論文の概要: Provable Partially Observable Reinforcement Learning with Privileged Information
- arxiv url: http://arxiv.org/abs/2412.00985v1
- Date: Sun, 01 Dec 2024 22:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:32.934433
- Title: Provable Partially Observable Reinforcement Learning with Privileged Information
- Title(参考訳): 原始情報を用いた確率的部分観測型強化学習
- Authors: Yang Cai, Xiangyu Liu, Argyris Oikonomou, Kaiqing Zhang,
- Abstract要約: 基礎状態の部分観測性は、一般に強化学習(RL)において重要な課題を呈する。
実際には、シミュレーターからの状態へのアクセスのような特定のエンフ情報は、訓練に利用されてきた。
この設定において、単純で実用的なパラダイムを再検討し、検討する。
- 参考スコア(独自算出の注目度): 31.265176900678856
- License:
- Abstract: Partial observability of the underlying states generally presents significant challenges for reinforcement learning (RL). In practice, certain \emph{privileged information}, e.g., the access to states from simulators, has been exploited in training and has achieved prominent empirical successes. To better understand the benefits of privileged information, we revisit and examine several simple and practically used paradigms in this setting. Specifically, we first formalize the empirical paradigm of \emph{expert distillation} (also known as \emph{teacher-student} learning), demonstrating its pitfall in finding near-optimal policies. We then identify a condition of the partially observable environment, the \emph{deterministic filter condition}, under which expert distillation achieves sample and computational complexities that are \emph{both} polynomial. Furthermore, we investigate another useful empirical paradigm of \emph{asymmetric actor-critic}, and focus on the more challenging setting of observable partially observable Markov decision processes. We develop a belief-weighted asymmetric actor-critic algorithm with polynomial sample and quasi-polynomial computational complexities, in which one key component is a new provable oracle for learning belief states that preserve \emph{filter stability} under a misspecified model, which may be of independent interest. Finally, we also investigate the provable efficiency of partially observable multi-agent RL (MARL) with privileged information. We develop algorithms featuring \emph{centralized-training-with-decentralized-execution}, a popular framework in empirical MARL, with polynomial sample and (quasi-)polynomial computational complexities in both paradigms above. Compared with a few recent related theoretical studies, our focus is on understanding practically inspired algorithmic paradigms, without computationally intractable oracles.
- Abstract(参考訳): 基底状態の部分観測性は、一般に強化学習(RL)において重要な課題を呈する。
実際には、シミュレーターからの状態へのアクセスなど、特定の \emph{privileged information} が訓練に利用され、経験的成功を収めている。
特権情報の利点をよりよく理解するために、我々はこの設定においてシンプルで実用的なパラダイムを再検討し、検討する。
具体的には,まず「emph{expert distillation}」(「emph{teacher-student」学習とも呼ばれる)の実証的パラダイムを定式化し,その落とし穴を最適に近い政策の発見に用いた。
次に、部分的に観測可能な環境である 'emph{deterministic filter condition} の条件を特定し、そこで専門的な蒸留が \emph{both} 多項式であるサンプルおよび計算複雑性を達成する。
さらに,別の有用な経験的パラダイムである「emph{asymmetric actor-critic}」を考察し,観測可能な部分観測可能マルコフ決定過程のより困難な設定に焦点をあてる。
本研究では, 多項式サンプルと準多項式計算複素量を持つ信念重み付き非対称アクター批判アルゴリズムを開発し, 1つの重要な成分が, 独立性のある不特定モデルの下で, フェーフ・フィルタ安定性を保った信念状態の証明可能な新しいオラクルであることを示す。
最後に、特権情報を持つ部分観測可能なマルチエージェントRL(MARL)の有効性についても検討する。
実験的なMARLで一般的なフレームワークである 'emph{centralized-training-with-decentralized-execution} を特徴とするアルゴリズムを開発した。
最近のいくつかの理論的研究と比較すると、計算に難解なオラクルを使わずに、実用的なアルゴリズムパラダイムを理解することに重点を置いている。
関連論文リスト
- Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Partially Observable Multi-Agent Reinforcement Learning with Information Sharing [33.145861021414184]
部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(RL)について検討する。
我々は,エージェント間での情報共有の可能性,経験的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
論文 参考訳(メタデータ) (2023-08-16T23:42:03Z) - A Moment-Matching Approach to Testable Learning and a New
Characterization of Rademacher Complexity [15.746613321517282]
我々は、モーメントマッチングやメートル法非依存のツールを用いて、テスト可能な学習アルゴリズムを開発するための強力な新しいアプローチを提案する。
意外なことに、テスト可能な学習における情報理論の複雑さは、概念クラスのRademacher複雑さによって強く特徴づけられている。
論文 参考訳(メタデータ) (2022-11-23T21:29:51Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。