論文の概要: Building surrogate models using trajectories of agents trained by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.01285v1
- Date: Mon, 01 Sep 2025 09:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.618742
- Title: Building surrogate models using trajectories of agents trained by Reinforcement Learning
- Title(参考訳): 強化学習によるエージェントの軌道を用いた代理モデルの構築
- Authors: Julen Cestero, Marco Quartulli, Marcello Restelli,
- Abstract要約: 強化学習によって訓練されたポリシーを用いて,シミュレーションされた決定論的環境を効率的にサンプリングする手法を提案する。
我々は、ラテン・ハイパーキューブサンプリングやアクティブラーニング、クリギングに関して、これらのサロゲート構築戦略を広範囲に分析する。
提案手法は,提案手法の最先端性を向上し,複雑なシミュレータへの補助支援強化学習政策最適化戦略の適用を可能にする道筋を明確化する。
- 参考スコア(独自算出の注目度): 34.57352474501273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample efficiency in the face of computationally expensive simulations is a common concern in surrogate modeling. Current strategies to minimize the number of samples needed are not as effective in simulated environments with wide state spaces. As a response to this challenge, we propose a novel method to efficiently sample simulated deterministic environments by using policies trained by Reinforcement Learning. We provide an extensive analysis of these surrogate-building strategies with respect to Latin-Hypercube sampling or Active Learning and Kriging, cross-validating performances with all sampled datasets. The analysis shows that a mixed dataset that includes samples acquired by random agents, expert agents, and agents trained to explore the regions of maximum entropy of the state transition distribution provides the best scores through all datasets, which is crucial for a meaningful state space representation. We conclude that the proposed method improves the state-of-the-art and clears the path to enable the application of surrogate-aided Reinforcement Learning policy optimization strategies on complex simulators.
- Abstract(参考訳): 計算コストのかかるシミュレーションに直面したサンプル効率は、代理モデリングにおいて一般的な関心事である。
必要なサンプル数を最小化するための現在の戦略は、広い状態空間を持つシミュレーション環境では効果がない。
この課題に対応するために,強化学習によって訓練されたポリシーを用いて,シミュレートされた決定論的環境を効率的にサンプリングする手法を提案する。
我々は、ラテン・ハイパーキューブサンプリングやアクティブラーニング・クリギング(Active Learning and Kriging)に関して、これらのサロゲート構築戦略を広範囲に分析し、すべてのサンプルデータセットでクロスバリデーションする。
この分析は、ランダムエージェント、専門家エージェント、エージェントによって取得されたサンプルを含む混合データセットが、状態遷移分布の最大エントロピーの領域を探索するために訓練されたエージェントが、すべてのデータセットを通して最良のスコアを提供することを示している。
提案手法は,提案手法の最先端性を向上し,複雑なシミュレータへの補助支援強化学習政策最適化戦略の適用を可能にする道筋を明確化する。
関連論文リスト
- Practical Performative Policy Learning with Strategic Agents [8.361090623217246]
本研究では,政策学習の課題について検討し,エージェントが提案した方針に応えて特徴を調整し,その潜在的な結果を改善する。
本稿では,高次元分布マップの代用として,微分可能な分類器を用いた勾配型ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T10:09:44Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Gradient and Uncertainty Enhanced Sequential Sampling for Global Fit [0.0]
本稿では、GUESS(Gradient and Uncertainty Enhanced Sequential Smpling)と呼ばれる、グローバル適合のための新しいサンプリング戦略を提案する。
GUESSは, 実験例における他のサロゲート型戦略と比較して, 平均的な試料効率で達成された。
論文 参考訳(メタデータ) (2023-09-29T19:49:39Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Federated Learning under Importance Sampling [49.17137296715029]
本研究は, サンプリングエージェントと非均一に誘導されるデータに対する重要サンプリングと工夫の効果について検討する。
代替のないサンプリングを含むスキームでは,結果のアーキテクチャの性能は,各エージェントのデータ変動性に関連する2つの要因によって制御される。
論文 参考訳(メタデータ) (2020-12-14T10:08:55Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。