論文の概要: Knowing the Past to Predict the Future: Reinforcement Virtual Learning
- arxiv url: http://arxiv.org/abs/2211.01266v1
- Date: Wed, 2 Nov 2022 16:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:53:33.287386
- Title: Knowing the Past to Predict the Future: Reinforcement Virtual Learning
- Title(参考訳): 未来を予測するために過去を知る - 強化された仮想学習
- Authors: Peng Zhang, Yawen Huang, Bingzhang Hu, Shizheng Wang, Haoran Duan,
Noura Al Moubayed, Yefeng Zheng, and Yang Long
- Abstract要約: 近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
- 参考スコア(独自算出の注目度): 29.47688292868217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL)-based control system has received considerable
attention in recent decades. However, in many real-world problems, such as
Batch Process Control, the environment is uncertain, which requires expensive
interaction to acquire the state and reward values. In this paper, we present a
cost-efficient framework, such that the RL model can evolve for itself in a
Virtual Space using the predictive models with only historical data. The
proposed framework enables a step-by-step RL model to predict the future state
and select optimal actions for long-sight decisions. The main focuses are
summarized as: 1) how to balance the long-sight and short-sight rewards with an
optimal strategy; 2) how to make the virtual model interacting with real
environment to converge to a final learning policy. Under the experimental
settings of Fed-Batch Process, our method consistently outperforms the existing
state-of-the-art methods.
- Abstract(参考訳): 近年,強化学習(RL)に基づく制御システムが注目されている。
しかし、バッチプロセス制御のような現実世界の多くの問題では、状態と報酬値を取得するのに高価な相互作用を必要とする環境が不確かである。
本稿では,歴史データのみを用いた予測モデルを用いて,仮想空間内でRLモデルを進化させることのできる費用効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
主な焦点は以下の通りである。
1) 長期的・短期的な報酬と最適な戦略のバランスをとる方法
2) 仮想モデルを実際の環境と相互作用させて最終学習方針に収束させる方法。
Fed-Batch Processの実験的な設定の下では、我々の手法は既存の最先端手法よりも一貫して優れています。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Model predictive control-based value estimation for efficient reinforcement learning [6.8237783245324035]
データ駆動型アプローチにより環境をモデル化するモデル予測制御に基づく改良された強化学習手法を設計する。
学習した環境モデルに基づいて、値関数を推定し、ポリシーを最適化する多段階予測を行う。
本手法は, 学習効率の向上, 局所最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:14Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Flow-based Recurrent Belief State Learning for POMDPs [20.860726518161204]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化するための原則的で汎用的なフレームワークを提供する。
主な課題は、観測不能な環境状態の確率分布である信念状態をどのように正確に取得するかである。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
論文 参考訳(メタデータ) (2022-05-23T05:29:55Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。