論文の概要: Towards General-Purpose Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.16142v1
- Date: Mon, 27 Jan 2025 15:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:41.489524
- Title: Towards General-Purpose Model-Free Reinforcement Learning
- Title(参考訳): 汎用モデルフリー強化学習に向けて
- Authors: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat,
- Abstract要約: 強化学習(RL)は、ほぼ普遍的な問題解決のためのフレームワークを約束する。
実際には、RLアルゴリズムは特定のベンチマークに合わせて調整されることが多い。
そこで本研究では,ドメインと問題設定の多様なクラスに対処可能なモデルフリーの深部RLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 40.973429772093155
- License:
- Abstract: Reinforcement learning (RL) promises a framework for near-universal problem-solving. In practice however, RL algorithms are often tailored to specific benchmarks, relying on carefully tuned hyperparameters and algorithmic choices. Recently, powerful model-based RL methods have shown impressive general results across benchmarks but come at the cost of increased complexity and slow run times, limiting their broader applicability. In this paper, we attempt to find a unifying model-free deep RL algorithm that can address a diverse class of domains and problem settings. To achieve this, we leverage model-based representations that approximately linearize the value function, taking advantage of the denser task objectives used by model-based RL while avoiding the costs associated with planning or simulated trajectories. We evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a single set of hyperparameters and show a competitive performance against domain-specific and general baselines, providing a concrete step towards building general-purpose model-free deep RL algorithms.
- Abstract(参考訳): 強化学習(RL)は、ほぼ普遍的な問題解決のためのフレームワークを約束する。
しかし実際には、RLアルゴリズムは特定のベンチマークに合わせて調整され、注意深く調整されたハイパーパラメータとアルゴリズムの選択に依存することが多い。
近年、強力なモデルベースのRL手法は、ベンチマーク全体で印象的な一般的な結果を示しているが、複雑さが増し、実行時間が遅くなるため、適用性が制限される。
本稿では,ドメインと問題設定の多様なクラスに対処可能なモデル自由な深部RLアルゴリズムを提案する。
これを実現するために、モデルベースRLで使用されるより密集したタスク目的を生かしながら、計画やシミュレートされた軌道のコストを回避し、値関数を概ね線形化するモデルベース表現を利用する。
提案アルゴリズムであるMR.Qは,一組のハイパーパラメータを持つ多種多様なRLベンチマークを用いて評価し,汎用モデルフリーな深部RLアルゴリズムを構築するための具体的なステップを提供する。
関連論文リスト
- Model-Free Robust Reinforcement Learning with Sample Complexity Analysis [16.477827600825428]
本稿では,マルチレベルモンテカルロ法を用いたモデルフリーDR-RLアルゴリズムを提案する。
我々は,全変動,チ二乗発散,KL発散によって定義される不確実性集合のアルゴリズムを開発する。
注目すべきは、我々のアルゴリズムは、有限サンプルの複雑さを特徴とする初めてのモデルフリーDR-RLアプローチである。
論文 参考訳(メタデータ) (2024-06-24T19:35:26Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Tuning Mixed Input Hyperparameters on the Fly for Efficient Population
Based AutoRL [12.135280422000635]
連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。
データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
論文 参考訳(メタデータ) (2021-06-30T08:15:59Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Ordering-Based Causal Discovery with Reinforcement Learning [31.358145789333825]
本論文では, RL を順序付けに基づくパラダイムに組み込むことにより, RL に基づく因果的発見手法を提案する。
提案手法の一貫性と計算複雑性を分析し,事前学習モデルを用いて学習を高速化できることを実証的に示す。
論文 参考訳(メタデータ) (2021-05-14T03:49:59Z) - Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing [2.5137859989323537]
多数のポリシーネットワークは、パラメータをランダムに推測して生成され、その後、ベンチマークタスクで評価される。
本手法は, 環境の複雑さを分離し, 課題の種類を明確にし, 課題の難易度を統計的に解析するための適切な基盤を提供する。
我々は、OpenAI Gymの様々な古典的な制御ベンチマークでアプローチをテストし、そこでは、訓練されていない小さなネットワークが様々なタスクに対して堅牢なベースラインを提供することを示す。
論文 参考訳(メタデータ) (2020-04-16T15:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。