論文の概要: Multi-fidelity reinforcement learning framework for shape optimization
- arxiv url: http://arxiv.org/abs/2202.11170v1
- Date: Tue, 22 Feb 2022 20:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 16:33:36.857249
- Title: Multi-fidelity reinforcement learning framework for shape optimization
- Title(参考訳): 形状最適化のための多次元強化学習フレームワーク
- Authors: Sahil Bhola, Suraj Pawar, Prasanna Balaprakash, Romit Maulik
- Abstract要約: マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。
我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。
本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
- 参考スコア(独自算出の注目度): 0.8258451067861933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) is a promising outer-loop intelligence
paradigm which can deploy problem solving strategies for complex tasks.
Consequently, DRL has been utilized for several scientific applications,
specifically in cases where classical optimization or control methods are
limited. One key limitation of conventional DRL methods is their episode-hungry
nature which proves to be a bottleneck for tasks which involve costly
evaluations of a numerical forward model. In this article, we address this
limitation of DRL by introducing a controlled transfer learning framework that
leverages a multi-fidelity simulation setting. Our strategy is deployed for an
airfoil shape optimization problem at high Reynolds numbers, where our
framework can learn an optimal policy for generating efficient airfoil shapes
by gathering knowledge from multi-fidelity environments and reduces
computational costs by over 30\%. Furthermore, our formulation promotes policy
exploration and generalization to new environments, thereby preventing
over-fitting to data from solely one fidelity. Our results demonstrate this
framework's applicability to other scientific DRL scenarios where
multi-fidelity environments can be used for policy learning.
- Abstract(参考訳): 深層強化学習(DRL)は複雑なタスクの問題解決戦略を展開できる有望な外ループインテリジェンスパラダイムである。
その結果、DRLはいくつかの科学的応用、特に古典的な最適化や制御方法が制限されている場合に利用されてきた。
従来のDRL手法の1つの重要な制限は、数値フォワードモデルのコスト評価を含むタスクのボトルネックであることを証明したエピソードハングリーの性質である。
本稿では,DRLのこの制限に,多要素シミュレーション設定を利用した制御された伝達学習フレームワークを導入することで対処する。
提案手法は高レイノルズ数での翼形状最適化問題に対して,マルチ忠実性環境から知識を収集し,計算コストを30%以上削減することにより,効率的な翼形状を生成するための最適方針を学習できる。
さらに,我々の定式化は,新たな環境への政策探索と一般化を促進し,データへの過度な適合を防止する。
本研究は,多要素環境を政策学習に用いる科学的DRLシナリオに適用可能であることを示す。
関連論文リスト
- DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。