論文の概要: Pretty darn good control: when are approximate solutions better than
approximate models
- arxiv url: http://arxiv.org/abs/2308.13654v1
- Date: Fri, 25 Aug 2023 19:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:56:06.768424
- Title: Pretty darn good control: when are approximate solutions better than
approximate models
- Title(参考訳): 良い制御:近似モデルよりも近似解が優れているとき
- Authors: Felipe Montealegre-Mora, Marcus Lapeyrolerie, Melissa Chapman, Abigail
G. Keller, Carl Boettiger
- Abstract要約: DRLアルゴリズムは,漁業における非線形3変数モデルにおける解の近似に成功していることを示す。
DRLで得られた政策は, 一定の死亡率の政策よりも収益性が高く, 持続性も高いことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for optimal control struggle to deal with the complexity
commonly encountered in real-world systems, including dimensionality, process
error, model bias and data heterogeneity. Instead of tackling these system
complexities directly, researchers have typically sought to simplify models to
fit optimal control methods. But when is the optimal solution to an
approximate, stylized model better than an approximate solution to a more
accurate model? While this question has largely gone unanswered owing to the
difficulty of finding even approximate solutions for complex models, recent
algorithmic and computational advances in deep reinforcement learning (DRL)
might finally allow us to address these questions. DRL methods have to date
been applied primarily in the context of games or robotic mechanics, which
operate under precisely known rules. Here, we demonstrate the ability for DRL
algorithms using deep neural networks to successfully approximate solutions
(the "policy function" or control rule) in a non-linear three-variable model
for a fishery without knowing or ever attempting to infer a model for the
process itself. We find that the reinforcement learning agent discovers an
effective simplification of the problem to obtain an interpretable control
rule. We show that the policy obtained with DRL is both more profitable and
more sustainable than any constant mortality policy -- the standard family of
policies considered in fishery management.
- Abstract(参考訳): 既存の最適制御手法は、次元性、プロセスエラー、モデルバイアス、データ不均一性など、現実世界のシステムでよく見られる複雑さに対処する。
これらのシステムの複雑さを直接扱う代わりに、研究者は通常、最適な制御方法に適合するモデルを単純化しようと試みてきた。
しかし、近似モデルに対する最適解が、より正確なモデルに対する近似解より優れているのはいつだろうか?
この問題は、複雑なモデルの近似解を見つけることの難しさから、ほとんど答えられていないが、近年の深層強化学習(DRL)におけるアルゴリズムと計算の進歩により、最終的にこれらの問題に対処できるかもしれない。
DRL法は、ゲームやロボット力学の文脈において、厳密なルールの下で運用されるのが一般的である。
そこで,本研究では,深層ニューラルネットワークを用いたdrlアルゴリズムが,漁業者に対する非線形3変数モデルにおいて,プロセス自体のモデルや推論を行なわずに,解の近似(「政治関数」や制御規則)に成功したことを実証する。
強化学習エージェントは、問題の効果的な単純化を発見し、解釈可能な制御ルールを得る。
我々は,DRLで得られる政策は,漁業管理において考慮される標準的な政策のファミリーである絶え間ない死亡率政策よりも利益が高く,持続性が高いことを示す。
関連論文リスト
- Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Centralized Model and Exploration Policy for Multi-Agent RL [13.661446184763117]
部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。
Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。
モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
論文 参考訳(メタデータ) (2021-07-14T00:34:08Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。