論文の概要: Offline RL With Resource Constrained Online Deployment
- arxiv url: http://arxiv.org/abs/2110.03165v1
- Date: Thu, 7 Oct 2021 03:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-09 06:15:52.613124
- Title: Offline RL With Resource Constrained Online Deployment
- Title(参考訳): リソース制約のあるオンラインデプロイメントを備えたオフラインRL
- Authors: Jayanth Reddy Regatti, Aniket Anand Deshmukh, Frank Cheng, Young Hun
Jung, Abhishek Gupta, Urun Dogan
- Abstract要約: オフライン強化学習は、環境へのリアルタイムアクセスが高価または不可能なシナリオでポリシーをトレーニングするために使用される。
本研究は,新たな資源制約問題設定を導入し,定式化する。
完全なオフラインデータセットを使用してトレーニングされたポリシと、限定された機能を使用してトレーニングされたポリシとの間のパフォーマンスギャップを強調します。
- 参考スコア(独自算出の注目度): 13.61540280864938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning is used to train policies in scenarios where
real-time access to the environment is expensive or impossible. As a natural
consequence of these harsh conditions, an agent may lack the resources to fully
observe the online environment before taking an action. We dub this situation
the resource-constrained setting. This leads to situations where the offline
dataset (available for training) can contain fully processed features (using
powerful language models, image models, complex sensors, etc.) which are not
available when actions are actually taken online. This disconnect leads to an
interesting and unexplored problem in offline RL: Is it possible to use a
richly processed offline dataset to train a policy which has access to fewer
features in the online environment? In this work, we introduce and formalize
this novel resource-constrained problem setting. We highlight the performance
gap between policies trained using the full offline dataset and policies
trained using limited features. We address this performance gap with a policy
transfer algorithm which first trains a teacher agent using the offline dataset
where features are fully available, and then transfers this knowledge to a
student agent that only uses the resource-constrained features. To better
capture the challenge of this setting, we propose a data collection procedure:
Resource Constrained-Datasets for RL (RC-D4RL). We evaluate our transfer
algorithm on RC-D4RL and the popular D4RL benchmarks and observe consistent
improvement over the baseline (TD3+BC without transfer). The code for the
experiments is available at
https://github.com/JayanthRR/RC-OfflineRL}{github.com/RC-OfflineRL.
- Abstract(参考訳): オフライン強化学習は、環境へのリアルタイムアクセスが高価または不可能なシナリオでポリシーを訓練するために使用される。
こうした厳しい状況の自然な結果として、エージェントは行動を起こす前にオンライン環境を完全に観察するリソースが不足する可能性がある。
リソース制約のある設定でこの状況を掘り下げます。
これにより、オフラインデータセット(トレーニング用に利用可能な)が完全に処理された機能(強力な言語モデル、イメージモデル、複雑なセンサーなど)を含むことができ、アクションが実際にオンラインに取得された時に利用できない状況につながる。
リッチに処理されたオフラインデータセットを使用して、オンライン環境でより少ない機能にアクセス可能なポリシをトレーニングすることは可能ですか?
本研究では,この新たな資源制約問題設定の導入と形式化を行う。
我々は、完全なオフラインデータセットを使用してトレーニングされたポリシーと、限られた機能を使用してトレーニングされたポリシー間のパフォーマンスのギャップを強調します。
この性能ギャップに対処するために、まずオフラインのデータセットを使って教師エージェントを訓練し、その知識をリソース制約のある機能のみを使用する学生エージェントに転送する。
本稿では,RL (Resource Constrained-Datasets for RL (RC-D4RL) というデータ収集手法を提案する。
RC-D4RLおよびD4RLベンチマーク上での転送アルゴリズムの評価を行い,ベースライン(転送不要TD3+BC)に対する一貫した改善を観察した。
実験のコードはhttps://github.com/JayanthRR/RC-OfflineRL}{github.com/RC-OfflineRLで公開されている。
関連論文リスト
- Offline Reinforcement Learning for Wireless Network Optimization with
Mixture Datasets [13.22086908661673]
強化学習(RL)により、無線無線リソース管理(RRM)におけるオンラインRLの採用が促進された。
オンラインRLアルゴリズムは環境と直接対話する必要がある。
オフラインのRLは、すべての関連する行動ポリシーが非常に最適である場合でも、ほぼ最適のRLポリシーを生成することができる。
論文 参考訳(メタデータ) (2023-11-19T21:02:17Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Leveraging Offline Data in Online Reinforcement Learning [24.18369781999988]
強化学習(RL)コミュニティには,オンラインRLとオフラインRLという,2つの中心的なパラダイムが出現している。
オンラインRL設定では、エージェントは環境に関する事前の知識を持っておらず、$epsilon$-Optimal Policyを見つけるためには、それと対話する必要がある。
オフラインのRL設定では、学習者はそこから学ぶために固定されたデータセットにアクセスするが、それ以外は環境との相互作用ができず、このオフラインデータから可能な限りのポリシーを取得する必要がある。
論文 参考訳(メタデータ) (2022-11-09T15:39:32Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。