論文の概要: Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization
- arxiv url: http://arxiv.org/abs/2503.18229v1
- Date: Sun, 23 Mar 2025 22:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:14.428900
- Title: Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization
- Title(参考訳): 工学設計最適化における可変化のための適応多要素強化学習
- Authors: Akash Agrawal, Christopher McComb,
- Abstract要約: 多要素強化学習(Multi-fidelity Reinforcement Learning, RL)フレームワークは、様々な精度とコストの分析モデルを統合することにより、計算資源を効率的に活用する。
本研究では,複数の不均一な非階層的低忠実度モデルを高忠実度モデルとともに動的に活用する適応型多忠実RLフレームワークを提案する。
提案手法の有効性はオクトコプター設計最適化問題において実証され,2つの低忠実度モデルと高忠実度シミュレータを用いた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multi-fidelity Reinforcement Learning (RL) frameworks efficiently utilize computational resources by integrating analysis models of varying accuracy and costs. The prevailing methodologies, characterized by transfer learning, human-inspired strategies, control variate techniques, and adaptive sampling, predominantly depend on a structured hierarchy of models. However, this reliance on a model hierarchy can exacerbate variance in policy learning when the underlying models exhibit heterogeneous error distributions across the design space. To address this challenge, this work proposes a novel adaptive multi-fidelity RL framework, in which multiple heterogeneous, non-hierarchical low-fidelity models are dynamically leveraged alongside a high-fidelity model to efficiently learn a high-fidelity policy. Specifically, low-fidelity policies and their experience data are adaptively used for efficient targeted learning, guided by their alignment with the high-fidelity policy. The effectiveness of the approach is demonstrated in an octocopter design optimization problem, utilizing two low-fidelity models alongside a high-fidelity simulator. The results demonstrate that the proposed approach substantially reduces variance in policy learning, leading to improved convergence and consistent high-quality solutions relative to traditional hierarchical multi-fidelity RL methods. Moreover, the framework eliminates the need for manually tuning model usage schedules, which can otherwise introduce significant computational overhead. This positions the framework as an effective variance-reduction strategy for multi-fidelity RL, while also mitigating the computational and operational burden of manual fidelity scheduling.
- Abstract(参考訳): 多要素強化学習(Multi-fidelity Reinforcement Learning, RL)フレームワークは、様々な精度とコストの分析モデルを統合することにより、計算資源を効率的に活用する。
代表的な手法は、伝達学習、人間にインスパイアされた戦略、制御変数技術、適応サンプリングであり、主にモデルの構造的階層に依存している。
しかし、このモデル階層への依存は、基礎となるモデルが設計空間全体にわたって不均一な誤差分布を示す場合、ポリシー学習のばらつきを悪化させる可能性がある。
この課題に対処するため、本研究では、複数の不均一で階層的でない低忠実度モデルを高忠実度モデルとともに動的に活用し、高忠実度ポリシーを効率的に学習する、新しい適応多忠実RLフレームワークを提案する。
特に、低忠実度ポリシーとその経験データは、高忠実度ポリシーとの整合性によって導かれる効率的な目標学習に適応的に使用される。
提案手法の有効性はオクトコプター設計最適化問題において実証され,2つの低忠実度モデルと高忠実度シミュレータを用いた。
その結果,提案手法はポリシー学習のばらつきを著しく低減し,従来の階層的多面性RL法と比較して収束性および一貫した高品質な解が得られることを示した。
さらに、このフレームワークは、手動でモデルの使用スケジュールをチューニングする必要がなくなる。
これにより、このフレームワークはマルチ忠実度RLの効果的な分散還元戦略として位置づけられると同時に、手動忠実度スケジューリングの計算と運用の負担を軽減する。
関連論文リスト
- Adaptive Learning of Design Strategies over Non-Hierarchical Multi-Fidelity Models via Policy Alignment [0.0]
多要素強化学習フレームワークは、精度と計算コストの異なる分析モデルを活用することにより、エンジニアリング設計の効率を高める。
ALPHAは、高忠実度モデルとともに、任意の非階層的で不均一な低忠実度モデルの集合を適応的に活用することにより、高忠実度ポリシーを効率的に学習する新しい多忠実度RLフレームワークである。
ALPHAの有効性は、高忠実度モデルと2つの低忠実度モデルを用いて、分析的テスト最適化とオクトコプター設計問題において実証される。
論文 参考訳(メタデータ) (2024-11-16T16:54:33Z) - Practical multi-fidelity machine learning: fusion of deterministic and Bayesian models [0.34592277400656235]
マルチフィデリティ機械学習手法は、少ないリソース集約型高フィデリティデータと、豊富なが精度の低い低フィデリティデータを統合する。
低次元領域と高次元領域にまたがる問題に対する実用的多面性戦略を提案する。
論文 参考訳(メタデータ) (2024-07-21T10:40:50Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Adaptive Reliability Analysis for Multi-fidelity Models using a
Collective Learning Strategy [6.368679897630892]
本研究は,信頼性解析のための適応多忠実ガウス法(adaptive multi-fidelity Gaussian process for reliability analysis,AMGPRA)という新しい手法を提案する。
提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。
AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。
論文 参考訳(メタデータ) (2021-09-21T14:42:58Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。