論文の概要: Adaptive Learning of Design Strategies over Non-Hierarchical Multi-Fidelity Models via Policy Alignment
- arxiv url: http://arxiv.org/abs/2411.10841v1
- Date: Sat, 16 Nov 2024 16:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:10.655758
- Title: Adaptive Learning of Design Strategies over Non-Hierarchical Multi-Fidelity Models via Policy Alignment
- Title(参考訳): ポリシーアライメントによる非階層的多要素モデルに基づく設計戦略の適応学習
- Authors: Akash Agrawal, Christopher McComb,
- Abstract要約: 多要素強化学習フレームワークは、精度と計算コストの異なる分析モデルを活用することにより、エンジニアリング設計の効率を高める。
ALPHAは、高忠実度モデルとともに、任意の非階層的で不均一な低忠実度モデルの集合を適応的に活用することにより、高忠実度ポリシーを効率的に学習する新しい多忠実度RLフレームワークである。
ALPHAの有効性は、高忠実度モデルと2つの低忠実度モデルを用いて、分析的テスト最適化とオクトコプター設計問題において実証される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multi-fidelity Reinforcement Learning (RL) frameworks significantly enhance the efficiency of engineering design by leveraging analysis models with varying levels of accuracy and computational costs. The prevailing methodologies, characterized by transfer learning, human-inspired strategies, control variate techniques, and adaptive sampling, predominantly depend on a structured hierarchy of models. However, this reliance on a model hierarchy overlooks the heterogeneous error distributions of models across the design space, extending beyond mere fidelity levels. This work proposes ALPHA (Adaptively Learned Policy with Heterogeneous Analyses), a novel multi-fidelity RL framework to efficiently learn a high-fidelity policy by adaptively leveraging an arbitrary set of non-hierarchical, heterogeneous, low-fidelity models alongside a high-fidelity model. Specifically, low-fidelity policies and their experience data are dynamically used for efficient targeted learning, guided by their alignment with the high-fidelity policy. The effectiveness of ALPHA is demonstrated in analytical test optimization and octocopter design problems, utilizing two low-fidelity models alongside a high-fidelity one. The results highlight ALPHA's adaptive capability to dynamically utilize models across time and design space, eliminating the need for scheduling models as required in a hierarchical framework. Furthermore, the adaptive agents find more direct paths to high-performance solutions, showing superior convergence behavior compared to hierarchical agents.
- Abstract(参考訳): 多要素強化学習(Multi-fidelity Reinforcement Learning, RL)フレームワークは、精度と計算コストの異なる分析モデルを活用することにより、エンジニアリング設計の効率を大幅に向上させる。
代表的な手法は、伝達学習、人間にインスパイアされた戦略、制御変数技術、適応サンプリングであり、主にモデルの構造的階層に依存している。
しかし、モデル階層へのこの依存は、設計空間全体にわたるモデルの異質な誤差分布を見落とし、単なる忠実度レベルを超えて拡張する。
ALPHA(Adaptively Learned Policy with Heterogeneous Analyses)は、階層的でない不均一な低忠実度モデルの任意のセットを高忠実度モデルとともに適応的に活用することにより、高忠実度ポリシーを効率的に学習する新しい多忠実度RLフレームワークである。
特に、低忠実度ポリシーとその経験データは、高忠実度ポリシーとの整合性によって導かれる効率的な目標学習に動的に使用される。
ALPHAの有効性は、高忠実度モデルと2つの低忠実度モデルを用いて、分析的テスト最適化とオクトコプター設計問題において実証される。
その結果、ALPHAは時間と設計空間をまたいでモデルを動的に活用し、階層的なフレームワークで必要となるようにモデルをスケジューリングする必要がなくなる。
さらに, 適応エージェントは, 階層型エージェントに比べて収束挙動が優れ, 高性能ソリューションへの直接的な経路を見いだすことができる。
関連論文リスト
- Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data [25.844968873581244]
Inverse-Q*はトークンレベルの強化学習を最適化することで従来のRL手法を超越する革新的なフレームワークである。
この結果から,Inverse-Q*は従来のRLHFアプローチに代わる実用的で堅牢な代替手段であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:43:32Z) - Practical multi-fidelity machine learning: fusion of deterministic and Bayesian models [0.34592277400656235]
マルチフィデリティ機械学習手法は、少ないリソース集約型高フィデリティデータと、豊富なが精度の低い低フィデリティデータを統合する。
低次元領域と高次元領域にまたがる問題に対する実用的多面性戦略を提案する。
論文 参考訳(メタデータ) (2024-07-21T10:40:50Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Adaptive Reliability Analysis for Multi-fidelity Models using a
Collective Learning Strategy [6.368679897630892]
本研究は,信頼性解析のための適応多忠実ガウス法(adaptive multi-fidelity Gaussian process for reliability analysis,AMGPRA)という新しい手法を提案する。
提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。
AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。
論文 参考訳(メタデータ) (2021-09-21T14:42:58Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。