Fugu-MT 論文翻訳(概要): Comparing Model-free and Model-based Algorithms for Offline Reinforcement Learning

論文の概要: Comparing Model-free and Model-based Algorithms for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2201.05433v1
Date: Fri, 14 Jan 2022 13:08:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-17 14:54:22.431179
Title: Comparing Model-free and Model-based Algorithms for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のためのモデルフリーとモデルベースアルゴリズムの比較
Authors: Phillip Swazinna, Steffen Udluft, Daniel Hein, Thomas Runkler
Abstract要約: 各種産業ベンチマーク(IB)データセットにおけるモデルフリー、モデルベース、およびハイブリッドオフラインRLアプローチを比較した。 IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムやより単純な正規化アルゴリズムによるモデルフリーアルゴリズムなど、より単純なアルゴリズムが最適であることがわかった。
参考スコア（独自算出の注目度）: 3.1848563608930505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning (RL) Algorithms are often designed with environments such as MuJoCo in mind, in which the planning horizon is extremely long and no noise exists. We compare model-free, model-based, as well as hybrid offline RL approaches on various industrial benchmark (IB) datasets to test the algorithms in settings closer to real world problems, including complex noise and partially observable states. We find that on the IB, hybrid approaches face severe difficulties and that simpler algorithms, such as rollout based algorithms or model-free algorithms with simpler regularizers perform best on the datasets.
Abstract（参考訳）: オフライン強化学習(rl)アルゴリズムは、ムジョコのような環境を念頭に置いて設計されることが多い。我々は、複雑なノイズや部分的に観測可能な状態を含む実世界の問題に近い設定でアルゴリズムをテストするために、モデルフリー、モデルベース、および様々な産業ベンチマーク(IB)データセットに対するハイブリッドオフラインRLアプローチを比較した。 IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムや、より単純な正規化アルゴリズムによるモデルフリーアルゴリズムといった、より単純なアルゴリズムがデータセット上で最高のパフォーマンスを発揮する。

関連論文リスト

A Clean Slate for Offline Reinforcement Learning [30.87055102715522]
オフライン強化学習(RL)は曖昧な問題定義と絡み合ったアルゴリズム設計によって妨げられている。我々は、厳格な分類法と、オンラインチューニング予算を明確に定量化する透明な評価プロトコルを導入する。我々は,TD3-AWR(モデルフリー)とMoBRAC(モデルベース)という,確立されたベースラインを大幅に上回る2つの新しいアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-04-15T17:59:05Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds [59.875550175217874]
本稿では,オンラインとオフラインのRL設定において,モデルベース強化学習方式が強い後悔とサンプル境界を実現することを示す。我々のアルゴリズムは単純で、かなり標準的であり、実際にRLの文献で広く研究されている。
論文参考訳（メタデータ） (2024-08-16T19:52:53Z)
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文参考訳（メタデータ） (2024-01-06T20:52:04Z)
A Comparative Study of Deep Learning and Iterative Algorithms for Joint Channel Estimation and Signal Detection in OFDM Systems [11.190815358585137]
周波数分割多重化システムでは,共同チャネル推定と信号検出が重要である。従来のアルゴリズムは低信号対雑音比(SNR)のシナリオでは不十分である。深層学習 (DL) 手法は検討されているが, 計算コストや低SNR設定による検証の欠如が懸念されている。
論文参考訳（メタデータ） (2023-03-07T06:34:04Z)
A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文参考訳（メタデータ） (2023-02-06T14:03:33Z)
Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文参考訳（メタデータ） (2023-01-27T14:08:09Z)
Oracle Inequalities for Model Selection in Offline Reinforcement Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文参考訳（メタデータ） (2022-11-03T17:32:34Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
A Hybrid PAC Reinforcement Learning Algorithm [5.279475826661642]
本稿では,マルコフ決定過程(MDPs)に対するほぼ正のPAC強化学習(RL)アルゴリズムを提案する。設計アルゴリズムはDyna-Delayed Q-learning(DDQ)アルゴリズムと呼ばれ、モデルフリーとモデルベースラーニングのアプローチを組み合わせており、どちらの場合も性能が優れている。
論文参考訳（メタデータ） (2020-09-05T21:32:42Z)
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文参考訳（メタデータ） (2020-06-15T18:37:38Z)
FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文参考訳（メタデータ） (2020-05-22T23:07:42Z)
Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文参考訳（メタデータ） (2020-02-20T10:50:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。