論文の概要: Comparing Model-free and Model-based Algorithms for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.05433v1
- Date: Fri, 14 Jan 2022 13:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 14:54:22.431179
- Title: Comparing Model-free and Model-based Algorithms for Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのモデルフリーとモデルベースアルゴリズムの比較
- Authors: Phillip Swazinna, Steffen Udluft, Daniel Hein, Thomas Runkler
- Abstract要約: 各種産業ベンチマーク(IB)データセットにおけるモデルフリー、モデルベース、およびハイブリッドオフラインRLアプローチを比較した。
IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムやより単純な正規化アルゴリズムによるモデルフリーアルゴリズムなど、より単純なアルゴリズムが最適であることがわかった。
- 参考スコア(独自算出の注目度): 3.1848563608930505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) Algorithms are often designed with
environments such as MuJoCo in mind, in which the planning horizon is extremely
long and no noise exists. We compare model-free, model-based, as well as hybrid
offline RL approaches on various industrial benchmark (IB) datasets to test the
algorithms in settings closer to real world problems, including complex noise
and partially observable states. We find that on the IB, hybrid approaches face
severe difficulties and that simpler algorithms, such as rollout based
algorithms or model-free algorithms with simpler regularizers perform best on
the datasets.
- Abstract(参考訳): オフライン強化学習(rl)アルゴリズムは、ムジョコのような環境を念頭に置いて設計されることが多い。
我々は、複雑なノイズや部分的に観測可能な状態を含む実世界の問題に近い設定でアルゴリズムをテストするために、モデルフリー、モデルベース、および様々な産業ベンチマーク(IB)データセットに対するハイブリッドオフラインRLアプローチを比較した。
IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムや、より単純な正規化アルゴリズムによるモデルフリーアルゴリズムといった、より単純なアルゴリズムがデータセット上で最高のパフォーマンスを発揮する。
関連論文リスト
- Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。
我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文 参考訳(メタデータ) (2024-08-16T19:52:53Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - A Comparative Study of Deep Learning and Iterative Algorithms for Joint Channel Estimation and Signal Detection in OFDM Systems [11.190815358585137]
周波数分割多重化システムでは,共同チャネル推定と信号検出が重要である。
従来のアルゴリズムは低信号対雑音比(SNR)のシナリオでは不十分である。
深層学習 (DL) 手法は検討されているが, 計算コストや低SNR設定による検証の欠如が懸念されている。
論文 参考訳(メタデータ) (2023-03-07T06:34:04Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。
設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文 参考訳(メタデータ) (2020-09-05T21:32:42Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。