論文の概要: Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality
- arxiv url: http://arxiv.org/abs/2202.06450v1
- Date: Mon, 14 Feb 2022 01:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:05:06.327461
- Title: Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality
- Title(参考訳): 展開効率の良い強化学習を目指して--低境界と最適性
- Authors: Jiawei Huang, Jinglin Chen, Li Zhao, Tao Qin, Nan Jiang, Tie-Yan Liu
- Abstract要約: 展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
- 参考スコア(独自算出の注目度): 141.89413461337324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deployment efficiency is an important criterion for many real-world
applications of reinforcement learning (RL). Despite the community's increasing
interest, there lacks a formal theoretical formulation for the problem. In this
paper, we propose such a formulation for deployment-efficient RL (DE-RL) from
an "optimization with constraints" perspective: we are interested in exploring
an MDP and obtaining a near-optimal policy within minimal \emph{deployment
complexity}, whereas in each deployment the policy can sample a large batch of
data. Using finite-horizon linear MDPs as a concrete structural model, we
reveal the fundamental limit in achieving deployment efficiency by establishing
information-theoretic lower bounds, and provide algorithms that achieve the
optimal deployment efficiency. Moreover, our formulation for DE-RL is flexible
and can serve as a building block for other practically relevant settings; we
give "Safe DE-RL" and "Sample-Efficient DE-RL" as two examples, which may be
worth future investigation.
- Abstract(参考訳): デプロイ効率は、強化学習(RL)の現実の多くの応用にとって重要な基準である。
コミュニティの関心が高まっているにもかかわらず、この問題には正式な理論的定式化がない。
本稿では,MDP を探索し,最小限の \emph{deployment complexity} の範囲内で準最適ポリシを得ることに関心がある一方で,各デプロイメントにおいて,ポリシーは大量のデータをサンプリングすることができる,という観点から,デプロイ効率のよい RL (DE-RL) の定式化を提案する。
有限水平線形MDPを具体的な構造モデルとして用いて,情報理論の下界を確立することにより,配置効率の基本的な限界を明らかにし,最適な配置効率を実現するアルゴリズムを提供する。
さらに,D-RLの定式化は柔軟であり,他の実用上重要な設定のためのビルディングブロックとして機能する。
関連論文リスト
- OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-22T20:44:04Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。